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内 容 简 介 

本 书 将 Django 框 架 的 特性 和 Web 开 发 实战 结合 在 一 起 ， 介 绍 如 何 使 用 Django 框 架 进 行 Web 应 用 的 
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为 什么 要 写 这 本 书 ? 


随 着 技术 的 发 展 ， 计 算 机 及 其 他 硬件 越 来 越 大 众 化 。 在 许多 IT 企业 或 组 织 中 ， 人 力 资 
源 正成 为 最 宝贵 的 资源 。 同 时 ， 社 会 信息 化 程度 的 提高 ， 加 剧 了 互联 网 行业 的 竞争 ， 众 多 
企业 都 使 用 MVP〈 最 小 可 行 产 品 ) 模 型 来 开发 软件 产品 。 在 这 样 的 背景 下 ， 程 序 的 开发 时 
间 比 程序 的 执行 时 间 更 为 重要 ， 减 少 每 个 项 目 开 发 所 需 的 时 间 和 人 力 可 以 为 企业 节省 大 量 
的 资金 。 

Django 作为 高 级 的 Python Web 框架 , 继承 了 Python 语言 表达 力 强 、 开 发 效率 高 的 优点 ， 
正成 为 越 来 越 多 团队 的 技术 选择 。Django 除了 自 带 Web 开发 工具 外 ， 还 有 众多 开 箱 即 用 的 
第 三 方 Django 扩展 ， 使 工程 师 能 够 高 效率 地 解决 更 多 的 技术 问题 。 程 序 员 要 想 学 习 Django 
开发 , 除了 需要 有 扎实 的 Python 语言 基础 外 , 还 要 学 习 Web 应 用 相关 的 知识 , 如 HTTP、 缓存 、 
数据 库 等 。 

另外 ，DevOps 的 流行 ， 正 在 打破 开发 和 运 维 之 间 的 边界 。 在 很 多 IT 企业 或 组 织 中 ， 
开发 人 员 也 需要 参与 项 目的 部 署 和 运 维 。 这 对 开发 人 员 提 出 了 新 的 要 求 : 不 仅 需要 了 解 和 
编写 业务 ， 而 且 需 要 了 解 高 可 用 的 技术 架构 。 当 下 ， 云 计算 已 经 成 为 最 重要 的 IT 基础 设施 ， 
这 种 开发 加 运 维 的 能 力 正 变 得 越 来 越 重要 。 

目前 图 书市 场 上 关于 Django 框架 应 用 的 图 书 不 少 ， 但 真正 从 实际 应 用 出 发 ， 以 用 户 价 
值 为 核心 ， 从 提出 问题 到 需求 提炼 的 价值 探索 ， 再 到 构建 应 用 、 运 行 应 用 、 检 测 应 用 的 快 
速 验 证 这 一 研发 闭环 为 主旨 的 图 书 却 很 少 。 本 书 便 是 以 实战 为 主旨 ， 以 Diango 为 切入 点 ， 
以 全 面 的 视角 介绍 了 Web 应 用 的 技术 架构 和 常见 的 应 用 案例 ， 让 读者 全 面 、 深 入 、 透 彻 地 
理解 Web 开发 的 各 种 热门 技术 ， 提 高 实际 开发 水 平和 实战 能 力 。 


I 一 和 ET EDD 


本 书 有 何 特色 ? 


1. 涵盖 Django 主要 功能 和 主流 Python 框架 的 整合 使 用 

本 书 涵盖 Django 模型 、 视 图 、 中 间 件 、 表 单 、 模 板 、 安 全 等 主要 功能 ， 以 及 Django 
与 Celery、pyredis、django-allauth 等 主流 框架 的 整合 使 用 。 

2. 对 Python Web 开发 的 各 种 技术 和 框架 作 了 原理 上 的 分 析 

本 书 从 一 开始 便 对 Web 开发 基础 和 Python Web 开发 的 环境 配置 做 了 基本 介绍 ， 并 对 各 
种 开发 技术 和 主流 框架 及 其 整合 进行 了 原理 性 分 析 ， 便 于 读者 理解 书 中 后 面 介绍 的 典型 模 
块 开 发 和 项 目 案例 。 

3. 涵盖 Python Web 应 用 常见 关联 技术 栈 

本 书 介绍 了 数据 库 MySQL、Web 服务 器 Nginx、 缓 存 服务 Redis、 消 息 队列 服务 
RabbitMQ 的 作用 和 如 何在 Django 中 使 用 这 些 技 术 。 另 外 ， 本 书 还 介绍 了 WSGI、uwsgi、 
Gunicom、ZooKeeper、Vagrant、Docker 和 Linux 这 些 常 用 于 部 署 和 运 维 Django 应 用 的 工 
具 和 服务 。 

4. 涵盖 高 可 用 的 Web 技术 架构 的 原理 

本 书 介绍 了 MySQL“ 主 从 同步 ”高 可 用 原理 、Redis 的 Redis Cluster 和 Codis 高 可 用 原理 、 
NSQ 高 可 用 原理 、RabbitMQ 高 可 用 原理 ,涵盖 了 LVS、Nginx 作为 负载 均衡 器 的 工作 原理 ， 
也 介绍 了 采集 日 志和 监控 的 常用 技术 栈 。 


| 本 书 内 容 及 知识 体系 | 


第 1 篇 ， 开 发 工具 及 框架 概述 ( 第 1 章 ) 

本 篇 介绍 了 Django 开发 环境 的 配置 和 HTTP 服务 开发 的 基础 知识 ， 主 要 包括 Web 开 
发 基础 、 配 置 Python 开发 环境 、MVC 开发 模式 等 。 

第 2 篇 项 目 案例 实战 (第 2~ 11 章 ) 

本 篇 介绍 了 使 用 Django 来 开发 一 个 小 型 电 商 网 站 的 案例 。 开 发 过 程 包括 需求 分 析 、 技 
术 选 型 及 使 用 Django 自 带 的 ORM、 视 图 、 模 板 、 表 单 、 缓 存 、 异 步 任务 、 安 全 、 访 问 控制 、 
测试 和 第 三 方 的 开源 工具 来 完成 项 目 需求 。 

第 3 篇 高 可 用 技术 架构 (第 12 一 16 章 ) 

本 篇 介绍 了 如 何 部 署 、 运 维和 监控 以 Django 为 代表 的 Web 应 用 , 主要 包括 Web 服务 器 、 
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应 用 服务 器 、 虚 拟 化 技术 、 负 载 均衡 技术 、 服 务 发 现 技术 、ELK 技术 栈 和 监控 系统 。 


| 适合 阅读 本 书 的 读者 | 
需要 全 面 学 习 Python Web 开发 技术 的 人 员 ; 
广大 Web 开发 程序 员 ; 
Python 程序 员 ; 
希望 提高 项 目 开 发 水 平 的 人 员 ; 
专业 培训 机 构 的 学 员 ; 
软件 开发 项 目 经 理 ; 
运 维 人 员 和 DevOps 工程 师 。 


阅读 本 书 的 建议 


没有 Python 基础 的 读者 ， 建 议 从 第 1 章 依次 阅读 并 演练 每 一 个 实例 。 

有 一 定 Django 框架 基础 的 读者 ， 可 以 根据 实际 情况 有 重点 地 选择 阅读 各 个 模块 和 
项 目 案例 。 

对 于 每 一 个 模块 和 项 目 案例 ， 先 自己 思考 一 下 实现 的 思路 ， 然 后 带 着 问号 去 阅读 ， 
学 习 效果 会 更 好 。 
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Web 应 用 程序 是 在 远程 服务 器 上 运行 的 软件 。 在 大 多 数 情况 下 ， 用 户 使 用 Web 浏览 器 通过 网 络 
( 如 Internet ) 访问 Web 应 用 程序 。Web 应 用 程序 与 其 他 应 用 程序 不 同 的 是 它们 不 需要 单独 安装 。 

常见 的 Web 应 用 程序 包括 论坛 、 电 商 网 站 等 。Django 就 是 一 个 用 于 开发 Web 应 用 程序 的 非常 流行 
的 框架 。 

本 章 主要 涉及 的 知识 点 : 

@ 网 站 运行 原理 : 学 习 网 站 的 工作 原理 和 开发 流程 。 

@ Python 与 Web 应 用 : 学 习 使 用 Python 开发 Web 应 用 的 基础 知识 。 

@ 初 识 Django: 学 习 使 用 Django 并 快速 搭建 一 个 Web 应 用 程序 。 

@ 测试 Django: 在 完成 代码 编写 后 ， 运 行 和 测试 该 应 用 程序 。 


外 网 站 运行 原理 

如 今 人 们 越 来 越 依赖 互联 网 来 搜索 信息 和 网 购 。 大 家 坐 在 计算 机 前 ， 打 开 浏览 器 ， 输 
入 网 站 的 网 址 ， 然 后 动 动 鼠标 就 能 完成 自己 想 做 的 事情 ， 确 实 是 非常 方便 。 那 么 ， 当 我 们 
在 浏览 器 中 输入 一 个 网 站 地 址 时 ， 到 底 发 生 了 什么 ? 浏览 器 是 如 何 知道 我 们 想 要 什么 的 ? 
又 是 如 何 把 内 容 呈 现在 我 们 眼前 的 呢 ? 本 章 将 带领 您 学 习 这 方面 的 内 容 。 


lll .HTIP 


超 文本 传输 协议 (HyperText Transfer Protocol， HITP) 是 用 于 分 布 式 协作 超 媒体 信息 
系统 的 应 用 协议 。 它 是 万 维 网 数据 通信 的 基础 。HTTP 使 用 了 可 靠 的 数据 传输 协议 ， 可 以 
确保 数据 在 传输 过 程 中 不 会 丢失 或 损坏 。 

Web 服务 器 负责 托管 Web 资源 ， 即 网 页 的 内 容 来 源 。 最 简单 的 Web 资源 是 Web 服务 
器 文件 系统 上 的 文件 。 这些 文件 可 以 包含 任何 内 容 : 它们 可 能 是 文本 文件 .HIML (HyperText 
Markup Language， 超 文本 标记 语言 ， 用 于 创建 网 页 ) 文件 、Microsoft Word〈 微 软 公 司 开 
发 的 文字 处 理应 用 程序 ) 文件 、 图 像 文 件 、 视 频 文件 或 其 他 任何 格式 的 文件 。 资 源 也 有 
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可 能 不 是 文件 ， 而 是 脚本 按照 请 求生 成 的 动态 内 容 。 每 个 资源 都 有 一 个 统一 资源 标识 符 
(Uuiform Resource Identifier, URI) 进行 标识 。 最 常见 的 URI 形 式 是 统一 资源 定位 符 (Uniform 
Resource Locator，URL) ， 我 们 通常 称 其 为 Web 地 址 。 

下 面 来 看 一 个 典型 的 场景 : 用 户 在 浏览 器 中 输入 一 个 网 站 地 址 时 ， 浏 览 器 会 发 送 一 
个 请 求 给 服务 器 ;服务 器 接受 这 个 请 求 后 ， 返 回 一 个 响应 。 浏 览 器 收 到 响应 后 ， 开 始 演 染 
HTML 页 面 。 上 述 过 程 反 复 进 行 ， 直 到 所 有 内 容 都 被 成 功 加 载 和 泻 染 。 这 时 一 个 完整 的 页 
面 就 呈现 在 用 户 眼 前 了 ， 如 图 1.1 所 示 。 


1 .浏览 器 请 求 
GET/index.html HTTP/1.1 2.Web 服 务 器 找到 文件 /var/www/…/index.html 


Host:www.example.com 


3. 服 务 器 返回 响应 
- HTTP/1.1 200 OK 读 取 文件 


Accept-Ranges: bytes 

Connection: keep-alive 

Content-Length: 45 

Content-Type: text/htl 

Date: Tue, 29 Jan2019 09:35:37 GMT 
ETag: " 5a4720d8-2d " 

Last-Modified: Sat,30 Dec2017 05:15:04 
GMT 

Server:nginx/1.15.8 


4. 浏 览 器 展示 页 面 


<html><body><h1>It works!</hl> 
</body></html> 


1.1 请 求 - 响应 例子 


HTTP 支持 几 种 不 同 的 请 求 命令 ， 这 些 方 法 称 为 HTTP 方法 。 在 上 面 的 例子 中 ， 客 户 
端 使 用 的 是 GET 方法 。 常 见 的 HTTP 方法 如 表 1.1 所 示 。 
表 1.1 常见 的 HTTP 方 法 


HTTP 方法 描 述 
GET 将 资源 从 服务 器 发 送 到 客户 端 


PUT 将 客户 端 数据 存储 在 服务 器 中 
POST 将 客户 端 数据 发 送 到 服务 器 网 关 应 用 程序 
仅 发 送 请 求 资源 的 响应 中 的 HTTP 标 头 
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每 个 HTTP 响应 消息 都 带 有 状态 码 。 状 态 码 是 一 个 3 位 数字 代码 ， 用 于 告诉 客户 端 请 
求 是 否 成 功 ， 或 者 是 否 需要 其 他 操作 。 常 见 的 HITP 状态 码 如 表 1.2 所 示 。 
表 1.2 常见 的 HTTP 状态 码 


HTTP 状态 码 描 述 
200 正常 : 资源 正确 返回 


302 重 定向 : 去 其 他 地 方 获取 资源 
404 未 找到 : 找 不 到 这 个 资源 


1.1.2 Web 发 展 


英国 科学 家 蒂 姆 。 伯 纳 斯 。 李 于 1989 年 发 明了 万 维 网 。 万 维 网 是 信息 时 代 发 展 的 核心 ， 
也 是 数 十 亿 人 在 互联 网 上 进行 交互 的 主要 工具 。 

万 维 网 发 展 的 第 一 阶段 称 为 Web 1.0。Web 1.0 的 内 容 创 建 者 很 少 ， 绝 大 多 数 用 户 只 
是 充当 内 容 的 消费 者 。 个 人 网 页 在 当时 非常 流行 ， 这 些 网 页 主要 是 托管 在 ISP (Internet 
Service Provider， 互 联网 服务 提供 商 ) 上 运行 的 Web 服务 器 上 的 静态 页 面 。 这 些 页 面 的 信 
息 主要 存储 在 服务 器 的 文件 系统 中 。 

Web 2.0 一 词 最 先 在 1999 年 被 提出 。 在 Web 2.0 网 站 上 ， 用 户 不 仅仅 会 阅读 网 站 上 的 
内 容 ， 还 会 创建 个 人 账户 ， 填 写 个 人 资料 ， 参 与 网 站 的 活动 ， 从 而 为 网 站 内 容 作 出 贡献 。 
开发 者 鼓励 用 户 使 用 网 站 的 用 户 界面 、 应 用 功能 和 存储 文件 。 

Web 2.0 网 站 的 功能 包括 网 络 社交 、 自 媒体 、 标 签 、 点 击 喜欢 等 。 用 户 将 自己 的 数据 上 
传 到 网 站 上 , 并 且 对 这 些 数据 有 一 些 控 制 权 。 网 站 可 能 还 建 有 “积分 ”系统 来 鼓励 用 户 参 与 。 
用 户 可 以 通过 在 新 闻 网 站 上 评论 新 闻 报道 、 在 旅游 网 站 上 上 传 照片 等 方式 参与 网 站 内 容 的 
创造 活动 。 


1.1.3 浏览 器 


Web 浏览 器 就 是 我 们 通常 所 说 的 浏览 器 ， 是 用 于 访问 万 维 网 信息 的 软件 应 用 程序 。 万 
维 网 上 的 网 页 、 图 像 和 视频 都 由 不 同 的 URL 标识 ， 使 用 浏览 器 能 够 检索 这 些 信息 ， 并 且 在 
用 户 的 设备 上 显示 出 来 。 

现在 较 流 行 的 浏览 器 产品 是 Chrome (谷歌 公司 开发 的 免费 网 页 浏览 器 ) 、Firefox、 
Safari〈 苹 果 开发 的 网 页 浏览 器 ) 和 正 〈 微 软 公司 开发 的 网 页 浏览 器 )。 
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如 今 , 浏览 器 的 功能 已 经 很 完备 ， 如 可 以 解释 和 显示 Web 服务 器 上 托管 的 HTML 网 页 、 
应 用 程序 、JavaScript( 高 级 的 、 解 释 型 编程 语言 )、AJAX (一 种 浏览 器 端 网 页 开发 技术 ) 
和 其 他 内 容 。 很 多 浏览 器 提供 扩展 软件 功能 的 插件 , 以 便 显示 多 媒体 信息 (包括 声音 和 视频 )， 
或 执行 视频 会 议 ， 或 其 他 安全 功能 等 。 浏 览 器 在 结构 上 可 以 分 为 多 个 组 件 ， 如 图 1.2 所 示 。 


用 户 界面 


浏览 器 引擎 


数据 
存储 


~ SZ 
JavaScript 
网 络 组 件 解释 器 UI 后 端 


1.2 浏览 器 的 组 件 


用 户 界 面 是 用 户 操 作 浏览 器 的 界面 。 界 面 上 通常 会 有 地 址 栏 、 后 退 按钮 、 前 进 按钮 、 
主页 按钮 、 刷 新 按钮 、 停 止 按钮 、 书 签 等 。 除 了 显示 请 求 的 网 页 的 窗口 之 外 ， 其 他 部 分 都 
在 这 个 界面 中 。 

浏览 器 引擎 是 用 户 界面 和 演 染 引擎 之 间 的 桥梁 。 它 根据 用 户 的 操作 来 调用 泻 染 引擎 的 
接口 。 

泻 染 引擎 负责 在 浏览 器 屏幕 上 呈现 网 页 。 演 染 引擎 解析 CSS〈 层 县 样式 表 ， 一 种 为 结 
构 化 文档 添加 样式 的 计算 机 语言 ) 定义 的 HIML 样式 ， 最 后 把 布局 在 用 户 界 面 中 显示 出 来 。 

现在 的 浏览 器 一 般 支 持 使 用 HITP 或 文件 传输 协议 〈File Transfer Protocol，FTP) 这 样 
通用 因特网 协议 来 检索 URL。 网 络 组 件 处 理 因特网 通信 和 安全 问题 ， 并 可 以 将 检索 到 的 文 
档 缓 存 起 来 。 

JavaScript 解释 器 负责 解释 并 执行 嵌入 在 网 站 中 的 JavaScript 代码 。 解 释 的 结果 将 被 发 
送 到 泻 染 引擎 以 供 展示 。 如 果 脚 本 来 自 外 部 , 则 先 从 网 络 中 下 载 脚本 , 直到 脚本 执行 的 时 候 ， 
解释 器 都 保持 暂停 状态 。 
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UI 后 端 用 于 用 户 绘制 组 合 框 和 窗口 等 基本 小 部 件 。 

浏览 器 支持 存储 机 制 ， 如 localStorage、IndexedDB、WebSQL 和 FileSystem。 浏 览 器 会 
在 计算 机 本 地 创建 小 型 数据 库 。 这 个 数据 库 负责 管理 用 户 数据 ， 如 缓存 、Cookie〈 网 站 为 
了 辨别 用 户 身份 而 存储 在 用 户 本 地 的 数据 ) 、 书 签 和 首选 项 。 


1.1.4 MVC 模 式 


模型 一 视图 一 控制 器 (Mode-View-Controller，MVC) 是 一 种 通常 用 于 开发 用 户 界面 的 
体系 结构 模式 ， 它 将 应 用 程序 划分 为 3 个 模块 。 这 样 划分 的 好 处 是 将 信息 的 内 部 表示 与 信 
息 呈 现 的 方式 和 用 户 接受 的 方式 分 开 了 ， 实 现 了 解 耦 ， 有 利于 代码 的 复 用 和 并 行 开发 ， 如 
图 1.3 所 示 。 


模型 


更 新 控制 


控制 器 


调用 


图 1.3 MVC 模式 


MVC 模 式 是 为 传统 桌面 图 形 程序 设计 的 , 现在 这 种 架构 已 经 成 为 Web 应 用 程序 的 主流 。 
流行 的 编程 语言 都 有 现成 的 MVC 框架 ， 可 直接 用 于 Web 应 用 的 开发 。 


多 Python Web 编程 
Web 2.0 专注 于 让 网 站 上 的 用 户 生 成 内 容 ， 从 它 诞 生 以 来 , 网络 编程 就 成 为 了 热门 话题 。 
动态 网 站 不 是 基于 文件 系统 中 的 文件 ， 而 是 由 程序 生成 内 容 返 回 给 用 户 。 这 些 程序 可 以 做 
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各 种 有 用 的 事情 ,如 显示 公告 板 的 发 布 。 这 些 程序 可 以 用 服务 器 支持 的 任何 编程 语言 编写 。 
因为 大 多 数 服 务 器 支持 Python 〈 一 种 解释 型 编程 语言 ) ， 因 此 可 以 使 用 Python 轻松 地 创建 
动态 网 站 。 

大 多 数 HTTP 服务 器 软件 是 使 用 C 一 种 通用 的 编程 语言 或 者 Ct+ (一 种 通用 的 程 
序 设计 语言 ) 编写 的 ， 它 们 不 能 直接 执行 Python 代码 ， 因 此 服务 器 程序 和 应 用 程序 之 间 需 
要 一 些 “桥梁”。 这 些 “ 桥 梁 ” (或 者 叫 作 接口 ) 定义 了 程序 如 何 与 服务 器 进行 交互 。 


1.2.1 通用 网 关 接 口 


通用 网 关 接 口 (Common Gateway Interface，CGI) 是 一 种 定义 程序 和 服务 器 交互 方式 
的 标准 协议 。 生 成 动态 网 页 的 应 用 程序 一 般 称 为 CGI 脚本 。 通 常情 况 下 ，CGI 脚本 发 出 执 
行 请 求 并 生成 HTML 文本 。 

简单 地 说 ,来 自 客户 端的 HTTP POST 请 求 将 表单 数据 通过 标准 输入 发 送 到 CGI 脚本 。 
脚本 通过 环境 变量 获取 其 他 数据 (如 URL 路 径 和 HTTP 标 头 数据 ) 。 

对 于 Python 程序 来 说 ， 每 个 请 求 都 会 启动 一 个 新 的 Python 解释 器 ， 这 会 消耗 一 些 时 间 ， 
因此 使 用 Python 编写 CGI 脚本 只 能 用 于 低 负载 的 情况 。 

CGI 的 优势 在 于 它 很 简单 ， 编 写 一 个 使 用 CGI 的 Python 程序 的 代码 如 下 面 的 脚本 : 


#!/usr/bin/env Python 

一 COdings DTE 一 和 一 二 

import cgitb 

cgitb .enable () 

print ("Content-Type: text/plain;charset=utf-8") 井 “” 标 准 输出 作为 HTTP 头 内 容 
print 


print "Hello World!" # ”标准 输出 作为 HTTP 内 容 
1.2.2 WSGI 协 议 


Web 服务 网 关 接 口 (Python Web Server Gateway Interface， WSGI) 是 一 种 为 Python 语 
言 定 义 的 Web 服务 器 和 Web 应 用 程序 或 框架 之 间 的 简单 而 通用 的 接口 ， 目 前 是 Python Web 
编程 的 最 佳 方式 ， 一 般 用 来 编写 框架 。 

WSGI 的 最 大 优点 是 统一 了 应 用 程序 编程 接口 。 如 果 使 用 的 框架 支持 WSGI， 那 么 应 用 
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程序 就 能 在 所 有 支持 WSGI 的 Web 服务 器 上 进行 部 署 。 


WSGI 一 个 非常 好 的 特性 是 中 间 件 。 中 间 件 是 应 用 程序 的 一 层 ， 用 户 可 以 在 其 中 添加 各 
种 功能 。 目 前 , 很 多 中 间 件 已 经 被 开发 出 来 了 。 例如 , 开发 者 不 用 再 编写 自己 的 会 话 管理 代码 ， 
而 只 需要 下 载 会 话 管理 中 间 件 ， 将 其 插入 应 用 ， 就 能 进行 应 用 相关 的 特定 逻辑 的 编码 了 。 

用 于 连接 到 各 种 底层 网 关 的 代码 称 为 WSGI 服务 器 。 现 在 已 经 有 很 多 WSGI 服务 器 了 ， 
所 以 Python Web 应 用 几乎 可 以 在 任何 地 方 部 署 。 这 是 Python 与 其 他 网 络 技术 相 比 的 一 大 优势 。 
1.2.3 ”模板 引擎 


模板 引擎 用 于 将 模板 与 数据 模型 组 合 起 来 以 生成 结果 文档 。 在 最 简单 的 情况 下 ， 模 板 
只 是 带 有 占 位 符 的 HIML 文件 ， 如 下 面 的 代码 : 


template 


html>”) # 模板 


Template( “<html><body><hl>Hello S$Stnamej</hl></body></ 
print (template.substitute (dict (name='Dinsdale'))) 


寺 这 样 的 控制 语句 。 


# ”输出 模板 
使 用 模板 引擎 有 助 于 将 HTML 代码 分 解 为 各 个 部 分 ， 这 样 既 降 低 了 代码 之 间 的 耦合 ， 
又 有 利于 代码 的 复 用 。 为 了 基于 复杂 的 模型 数据 生成 复杂 的 HIML 文本 ， 通 常 需 要 for 和 


Python 有 很 多 可 用 的 模板 引擎 ， 其 中 一 些 模板 引擎 定义 了 一 种 易于 学 习 的 纯 文本 编程 
语言 。 流 行 的 模板 引擎 包括 Jinja2〈 一 种 使 用 Python 语言 编写 的 模板 引擎 ) 等 。 


【人 1.3) 快速 上 手 Django 


Django 是 一 个 高 级 的 Python Web 框架 ， 它 鼓励 快速 开发 干净 、 实 用 的 设计 。 这 个 框 
架 由 经 验 丰富 的 开发 人 员 构建 ， 解 决 了 Web 开发 过 程 中 的 大 部 分 烦琐 的 事情 。 开 发 者 使 用 
Dijango 可 以 专注 于 编写 业务 逻辑 代码 ， 而 无 须 重复 造 轮子 。 

1.3.1 配置 开发 环境 


首先 ， 确 保 计 算 机 已 经 安装 Python 和 pip (Python 包 安 装 和 管理 工具 ) ， 可 通过 执行 
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下 面 的 命令 检查 是 否 成 功 安装 。 


$ python --version 

$ pip --version 

本 书 使 用 的 Python 版 本 是 2.7.15， 操 作 系 统 版 本 是 macOS 10.14.2 (18C54) ，Django 
版 本 是 1.8。 

就 像 大 多 数 现代 编程 语言 一 样 ，Python 有 自己 独特 的 下 载 、 存 储 和 解析 包 的 方式 。 默 
认 情况 下 ， 系 统 上 的 每 个 项 目 使 用 相同 的 目录 来 存储 和 检索 库 。 对 于 系统 包 来 说 ， 这 不 是 
什么 大 问题 ， 但 对 于 第 三 方 库 来 说 ， 其 影响 是 很 大 的 。 

在 现实 的 开发 场景 中 ， 不 同 的 项 目 依赖 同一 个 库 的 不 同 版 本 是 很 常见 的 现象 。 这 就 是 
虚拟 环境 工具 发 挥 作用 的 地 方 了 。 

从 根本 上 来 说 ，Python 虚拟 环境 的 主要 目的 是 为 Python 项 目 创建 一 个 独立 的 环境 ， 即 
每 个 项 目 都 可 以 拥有 自己 的 依赖 项 。 

下 面 为 新 项 目 创建 一 个 虚拟 环境 。 

首先 安装 virtualenv 软件 包 ， 然 后 创建 虚拟 环境 。 代 码 如 下 : 


$ pip install virtualenv 
$ virtualenv quick-start 


这 样 ， 一 个 全 新 的 虚拟 环境 就 创建 好 了 。 文 件 的 目录 结构 大 致 如 下 : 


Eo activate 

上 一 activate.csh 

上 一 activate.fish 

上 一 activate this.py 
| 一 easy install 


上 一 python -> python2.7 
Co python-config 
上 一 python2 -> python2.7 


HC python2.7 
[一 一 wheel 


| | 一 一 python2.7 
| 上 六 一 site-packages 
[一 一 pip-selfcheck.json 


创建 完成 后 ， 激 活 虚拟 环境 。 代 码 如 下 : 


$ source quick-start/bin/activate 
(quick-start) $ 


现在 Shell (交互 式 的 命令 行 工具 ) 的 提示 框 多 了 环境 的 名 字 (quick-start) ， 提 示 当 前 
已 经 进入 了 虚拟 环境 ， 在 虚拟 环境 中 安装 的 包 只 在 当前 环境 中 生效 。 

如 果 决 定 不 再 使 用 这 个 环境 ， 则 可 以 关闭 它 。 关 闭环 境 需 要 执行 deactivate 指令 ， 执 行 
指令 后 ， 提 示 框 中 环境 的 名 字 不 再 显示 。 代 码 如 下 : 


(quick-start) $ deactivate 
$ 


现在 开始 安装 Django， 这 里 选择 Django 1.8 版 本 ， 这 是 一 个 非常 稳定 的 版 本 。 命 令 行 
操作 如 下 : 
(quick-start) $ pip install django==1.8 


Installing collected packages: django 
Successfully installed django-1.8 


1.3.2 ”创建 项 目 


上 面 已 经 设置 好 了 开发 环境 ， 现 在 来 创建 一 个 名 为 quickstart 的 项 目 。Django 自 带 的 
django-admin 命令 行 工具 ， 可 以 很 方便 地 创建 项 目 。 


(quick-start) $ django-admin startproject quickstart 
创建 项 目的 结构 如 下 : 


[一 一 quickstart 
manage .DY 
[一 一 quickstart 
= i 
Co settings.py 
Co urls.py 


[一 一 wsgi.py 
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说 明 : 

最 外 层 的 quickstart 只 是 一 个 名 字 ， 可 以 替换 成 其 他 的 ， 对 项 目 没 有 影响 。 
manage.py 是 一 个 命令 行程 序 ， 允 许 用 户 以 各 种 方式 与 此 项 目 进行 交互 。 
quickstart 是 项 目的 包 名 ， 引 用 这 个 项 目的 代码 时 需要 用 到 。 

quickstart/ init .py 是 一 个 空 文件 ， 用 于 告诉 Python 这 个 目录 应 被 视 为 一 个 包 。 
quickstart/settings.py 是 项 目的 配置 文件 ，Django 推荐 用 代码 的 方式 来 管理 配置 。 
quickstart/urls.py 是 项 目的 URL 声明 ， 标 明 站 点 的 “目录 ”。 

quickstart/wsgipy 是 使 用 WSGI 部 署 服务 的 入 口 。 


1.3.3 配置 说 明 


上 面 创建 的 settings.py 文件 就 是 Django 项 目的 配置 文件 。 这 个 文件 自身 是 一 个 Python 
的 模块 ， 因 此 不 允许 出 现 Python 语法 错误 。 可 以 使 用 Python 语法 来 动态 设置 配置 ， 也 可 以 
从 其 他 文件 中 引入 配置 。 

在 使 用 Django 的 时 候 ， 一 定 要 指定 配置 路 径 ， 指 定 方式 是 配置 环境 变量 DJANGO_ 
SETTINGS MODULE. 

settings.py 文件 可 以 为 空 ， 因 为 Django 为 每 一 个 配置 都 设 定 了 默认 值 。 默 认 配 置 的 代 
码 路 径 在 django/config/global_ settings.py 文件 中 。 如 果 自 定义 的 配置 和 默认 的 配置 不 同 ， 则 
可 以 通过 下 面 的 命令 看 出 差别 : 


(quick-start) $ python manage.py diffsettings 


在 启动 的 时 候 ，Django 会 先 从 global settings.py 中 读 取 配 置 ， 然 后 在 项 目 定 义 的 
settings.py 文件 中 读 取 配 置 ， 根 据 需 要 覆盖 全 局 配置 。 

可 以 在 应 用 中 读 取 配置 对 象 ， 如 下 面 的 代码 : 

from django .conf import settings 


if settigns .debug: 
# todo 


也 可 以 在 应 用 运行 的 时 候 修改 配置 对 象 〈 一 般 不 推荐 这 样 做 )， 这 个 配置 会 立刻 生效 ， 
如 下 面 的 代码 : 


ET 


from django.conf import settings 
settings.DEBUG = True 


1.3.4 创建 应 用 


现在 来 创建 第 一 个 应 用 ， 同 样 使 用 admin 工具 创建 应 用 ， 将 新 的 应 用 取 名 为 myapp。 


(quick-start) $ django-admin startapp myapp 
经 过 短暂 的 等 待 , admin 会 创建 一 个 包含 了 必要 文件 的 应 用 。 创建 的 应 用 文件 夹 结构 如 下 : 


myapp/ 
i by 
FE admin.py 
Ho migrations 
| = 
FE models.py 
Co— tests.py 
一 一 views .py 
说 明 : 
admin.py 用 于 定制 应 用 的 管理 页 面 。 
migrations 文件 夹 用 于 模型 出 现 修改 时 对 应 数据 库 的 更 改 操作 。 
_ init .py 是 一 个 空 文件 ， 用 于 告诉 Python 这 个 目录 应 被 视 为 一 个 包 。 
models.py 用 于 存储 应 用 的 模型 ， 即 MVC 中 的 M。 
tests.py 一 般 用 来 放 单 元 测试 的 代码 。 
Views.py 用 来 放 视图 函数 。 
创建 之 后 需要 让 Django 知道 应 该 使 用 它 。 打 开 文 本 编辑 器 ， 修 改 quickstart/settings.py， 


在 INSTALLED APPS 中 添加 应 用 名 。 代 码 如 下 : 


INSTALLED APPS = [ 
'django.contrib.admin', 
'django.contrib.auth', 
'django.contrib.contenttypes', 
'django.contrib.sessions', 
'django.contrib.messages', 
'django.contrib.staticfiles', 
"myapp'v 
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1.3.5 ”启动 开发 服务 器 


Django 自 带 的 命令 行 工具 可 用 来 启动 开发 服务 器 。 使 用 runserver 命令 会 启动 一 个 
HTTP 服务 器 用 于 开发 和 调试 : 


(quick-start) $ python manage.py runserver 
该 命令 会 产生 一 些 输出 : 


Performing system checks... 

System check identified no issues (0 silenced). 

You have unapplied migrations; your app may not work properly until they are applied. 
Run "python manage.py migrate' to apply them. 

January 31, 2019 - 04:11:25 

Django version 1.8, using settings 'quickstart.settings' 

Starting development server at http://127.0.0.1:8000/ 

Quit the server with CONTROL-C. 


出 现 以 上 输出 , 说 明 开 发 服务 器 已 经 启动 了 , 这 是 一 个 Python 编写 的 轻 量 级 Web 服务 器 。 
服务 运行 后 ， 打 开 浏 览 器 ， 访 问 链接 http: //127.0.0.1: 8000， 就 能 看 到 Welcome to Django 
的 页 面 。 需 要 指出 的 是 ， 这 个 服务 器 只 在 开发 的 时 候 使 用 ， 不 要 在 生产 环境 使 用 它 。 

实现 runserver 的 代码 路 径 为 django/core/management/commands/runserver.py。 

默认 情况 下 ，runserver 命令 启动 的 服务 会 监听 内 部 全 的 8000 端口 。 可 以 传 入 参数 改 
变 服务 绑 定 的 卫 和 端口 ， 例 如 : 


(quick-start) $ Python manage.py runserver 0.0.0.0:8000 


1.3.6 ”编写 一 个 页 面 


现在 编写 第 一 个 页 面 。 打 开 myapp/views 文件 ， 在 文件 中 写 入 几 行 简单 的 代码 ， 这 几 
行 代码 实现 了 一 个 简单 的 视图 函数 : 
from django.http import HttpResponse # 引入 响应 对 象 


def index (request) : 
return HttpResponse (u" 你 好 , 朋友! ") 


那么 如 何 让 Django 知道 怎么 使 用 这 个 函数 呢 ? Django 提供 了 一 个 类 似 路 由 功能 的 对 
象 一 一 URLConf。 我 们 先 在 myapp 目录 下 创建 一 个 名 为 urls.py 的 文件 ， 然 后 在 这 个 文件 中 


写 入 下 面 的 代码 : 


from django.conf.urls import url 
from quickstart.myapp import views # 引入 应 用 的 视图 模块 
urlpatterns = [ 
url(r'^'，views.index)， 帮 路 由 配置 
] 
def index(request): # 主页 的 视图 
return HttpResponse (u" 你 好 ,朋友 ! ") 
上 面 的 文件 放 在 myapp 目录 下 ， 用 来 负责 这 个 应 用 的 路 由 。 一 个 项 目 可 能 包含 多 个 应 
用 ， 因 此 比较 好 的 是 在 项 目 级 别 页 配置 路 由 ， 这 个 配置 用 于 将 请 求 匹配 分 发 到 各 个 应 用 。 


现在 来 更 改 项 目的 路 由 配置 ， 编 辑 quickstarturls py 文件 。 代 码 如 下 : 


from django.conf.urls import include, url 
urlpatterns = [ 

url('myapp/'，include (myapp.urls))， # myapp 应 用 的 配置 
| 


重新 启动 runserver， 在 浏览 器 中 打开 链接 http: //127.0.0.1: 8080/myapp， 就 能 看 到 “你 
好 ， 朋 友 ! ”这 句 话 了 。 


本 章 介 绍 了 网 站 的 运行 原理 和 Python Web 编程 的 基础 知识 ， 这 些 基 础 知识 在 开 
发 Web 应 用 的 时 候 非常 有 用 ; 还 介绍 了 如 何 使 用 Diango 自 带 的 命令 行 工具 创建 第 一 个 
Django 项 目 。 在 后 面 的 章节 ， 我 们 会 进入 开发 实战 。 


六 -一 


练习 


问题 一 : 浏览 器 有 哪 几 个 组 件 ? 
问题 二 : 为 什么 要 为 Python 项 目 创建 虚拟 环境 ? 


第 2 简 
项 目 案 例 实战 


第 2 章 构建 电 商 网 站 


Python 语言 越 来 越 流 行 ， 人 们 在 越 来 越 多 的 领域 会 用 到 Python ， 而 网 站 开发 是 这 些 领域 中 非 
常 重要 的 部 分 。Django 作为 优秀 的 Web 框架 ,被 众多 互联 网 企业 用 来 构建 业务 系统 ， 知 名 的 有 
Instagram、Pinterest 等 。 本 章 将 会 带 您 使 用 Django 开发 一 个 简单 的 电 商 网 站 。 

本 章 主要 涉及 的 知识 点 : 

@ 网 站 结构 : 学 习 网 站 的 分 层 结 构 。 

@ 功能 模块 化 设计 : 学 习 将 需求 拆 解 为 不 同 的 功能 模块 。 

@ 表 结构 设计 : 学 习 设计 数据 库 表 结构 。 

@ 功能 实现 : 学 习 实用 的 Django 开发 技能 。 


网 站 需求 分 析 


一 般 来 讲 ， 互 联网 软件 产品 有 着 自己 的 生命 周期 。 生 命 周期 大 致 可 以 分 为 问题 的 定义 
和 规划 、 需 求 分 析 、 软 件 设计 、 程 序 编 码 、 软 件 测试 、 系 统 转换 和 运行 维护 这 7 个 阶段 。 
本 节 将 以 一 个 简单 的 电 商 网 站 作为 例子 来 进行 需求 分 析 。 


2.1.1 需求 


电子 商务 简称 电 商 ， 一 般 是 指 在 互联 网 上 以 电子 交易 方式 进行 交易 活动 和 相关 服务 活 
动 。 如 今 ， 网 上 购物 已 经 成 了 很 多 人 生活 的 一 部 分 。 

我 们 当然 不 是 要 做 一 个 像 淘宝 、 京 东 、 拼 多 多 这 样 的 成 熟 电 商 平台 (以 作者 一 个 人 的 
能 力也 不 可 能 完成 ) ， 而 是 以 一 个 假想 的 、 简 单 的 网 站 来 展示 使 用 Django 进行 软件 开发 的 
大 臻 过程 。 


老 赵 是 一 个 商人 , 最近 他 打算 在 网 上 做 一 些 生意 , 听 说 我 们 开发 网 站 的 制作 成 本 较 低 ， 
找到 我 们 来 给 他 开发 一 个 网 站 ， 于 是 发 生 了 下 面 的 对 话 。 
老 赵 : 我 想 做 一 个 网 站 。 
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我 们 : 
老 赵 : 
我 们 : 
老 赵 : 


您 想 做 一 个 什么 样 的 网 站 呢 ? 
电 商 网 站 ， 像 淘宝 那样 的 就 行 。 
您 为 什么 要 做 一 个 电 商 网 站 呢 ? 
现在 流行 这 个 ， 并 且 线 上 购物 方便 。 我 可 以 直接 从 厂家 拿 货 ， 开 网 店 就 能 省 下 


门店 的 钱 了 。 


我 们 : 
老 赵 : 
我 们 : 
老 赵 : 


您 主要 销售 什么 商品 呢 ? 
主要 销售 女士 高 跟 鞋 ,我 卖 的 高 跟 鞋 适合 各 个 年 龄 段 的 女性 ,各 个 型 号 的 都 有 。 
您 希望 网 站 有 哪些 功能 呢 ? 
顾客 打开 网 站 ， 可 以 看 到 各 种 型 号 的 鞋子 ， 她 选中 一 双 鞋 ， 可 以 添加 到 购物 车 。 


她 觉得 满意 可 以 付款 。 最 好 有 一 个 凭据 , 让 我 知道 她 买 了 这 双 鞋 , 后 面 交流 方便 些 。 哦 ,对 了 ， 
我 还 要 统计 下 每 个 月 销售 的 状况 ， 方 便 下 一 个 月 制订 销售 计划 。 


我 们 : 
老 赵 : 
我 们 : 
老 赵 : 


您 大 概 有 多 少 客户 ? 一 天 能 卖 出 多 少 双 鞋 呢 ? 
五 百 个 客户 吧 。 一 天 卖 七 八 十 双 的 样子 。 
让 我 们 来 谈 谈 价 格 吧 。 

先 做 出 一 个 原型 ， 我 们 再 聊 。 


2.1.2 ”需求 分 析 


根据 老 赵 的 描述 ， 大 致 能 明确 用 户 需求 。 


(1 ) 小 红 是 这 个 网 站 的 一 名 女性 用 户 。 她 打开 了 网 站 的 主页 面 ， 看 到 了 各 种 样式 的 高 


跟 鞋 。 


(2 ) 小 红 单 击 一 双 鞋 ， 选 中 它 ， 将 它 加 入 购物 车 。 
(3 ) 小 红 进 入 购物 车 页 面 ， 单 击 付款 ， 并 在 付款 完成 后 获得 一 个 订单 号 。 
(4) 小 红 进 入 个 人 主页 ， 看 到 自己 的 购物 记录 。 单 击 某 条 记录 ， 可 以 看 到 订单 号 。 


查看 这 些 需求 ， 可 以 将 网 站 分 成 前 台 系统 和 后 台 系 统 ， 如 图 2.1 所 示 。 


Django 项 目 开发 实战 


商品 管理 订单 管理 


会 员 管理 统计 报表 


图 2.1 网 站 功能 模块 


明确 需求 后 ， 就 可 以 开展 一 些 技术 方面 的 工作 了 。 


[2.2) 网 站 结构 


为 了 确保 完成 业务 目标 ， 同 时 为 用 户 提供 良好 的 体验 ， 需 要 在 实际 编写 代码 之 前 ， 明 
确 构 建 网 站 的 方式 ， 这 种 方式 有 时 候 又 称 为 网 站 架构 。 在 了 解 了 业务 需求 的 基础 上 ， 本 节 
将 以 层级 的 方式 设计 网 站 的 不 同 组 件 。 


2.2.1 分 层 设计 


在 软件 工程 中 ， 客 户 端 一 服务 器 体系 结构 通常 用 于 展示 界面 ， 应 用 逻辑 和 数据 在 物理 
上 分 开 ， 这 种 结构 称 为 多 层 体系 结构 。 分 层 模式 提供 了 一 种 模型 ， 让 软件 开发 人 员 可 以 创 
建 灵活 且 可 重用 的 应 用 程序 ， 因 为 软件 开发 人 员 可 以 选择 修改 或 添 接 入 层 
加 特定 层 ， 而 不 用 重新 处 理 整 个 应 用 程序 。 

分 层 设计 中 最 常见 的 是 3 层 体系 ， 它 通常 由 接 入 层 、 逻 辑 层 和 


于 


逻辑 层 
存储 层 组 成 。 在 Web 开发 领域 ( 见 图 2.2) ， 这 3 层 通常 如 下 。 
@ 接 入 层 : 提供 静态 内 容 的 前 端 Web 服务 器 ， 可 能 还 有 一 些 二 


缓存 的 动态 内 容 。 


2.2 经 典 的 3 层 结构 


@ 逻辑 层 : 生成 动态 内 容 的 应 用 服务 器 。Django 就 在 这 一 层 。 
@ 存储 层 : 提供 数据 存储 的 服务 器 。 
在 较 复杂 的 业务 场景 下 , 可 能 还 需要 缓存 层 和 异步 处 理 层 , 我 们 会 在 后 面 的 章节 中 谈 到 。 


2.2.2 ”技术 选 型 


如 果 读 者 参与 过 开源 软件 或 者 Web 开发 ， 一 定 听 过 LAMP 技术 栈 。 这 四 个 英文 字母 分 
别 代 表 了 一 种 开源 技术 或 产品 ， 使 用 这 些 技术 ， 可 以 很 方便 地 开发 一 个 网 站 。 
@ L: Linux 操作 系统 ， 一 个 免费 分 发 的 开源 操作 系统 。 
@ A: Apache Web 服务 器 ， 开 源 的 Web 服务 器 。 
@ M: MYSQL， 开 源 的 关系 型 数据 库 ， 依 赖 于 SQL 来 处 理 数据 库 中 的 数据 。 
@ P: PHP， 一 种 开源 的 服务 器 端 HTML 周 入 式 脚 本 语言 ， 用 于 创建 动态 Web 页 面 。 
使 用 LAMP 技术 栈 有 很 多 的 好 处 : 
灵活 。 无 论 在 技术 上 还 是 许可 上 ， 此 技术 栈 都 没有 限制 。 
可 定制 。 此 技术 栈 允 许 对 组 件 做 定制 化 的 修改 以 适应 业务 需要 。 
易于 开发 。AMP 分 别 对 应 了 2.2.1 节 所 讲 的 接 入 层 、 逻 辑 层 和 存储 层 。 
易于 部 署 。 
安全 。 此 技术 栈 已 经 流行 了 很 多 年 ， 有 很 多 的 用 户 和 活跃 的 社区 ， 非 常 稳定 。 
免费 。 使 用 此 技术 栈 无 须 向 商业 技术 公司 支付 任何 费用 。 
随 着 技术 的 发 展 ，LAMP 中 的 各 个 组 件 都 有 了 替代 产品 。 在 本 书 中 ， 我 们 将 Apache 用 
Nginx 流行 的 Web 服务 器 ) 替换， 将 PHP 用 Python 替换 ， 如 图 2.3 所 示 。 


接 入 层 
Nginx 


? 


逻辑 层 
Django 框架 


存储 层 
MySQL 


2.3 类 LAMP 技术 选 型 
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下 面 我 们 将 在 这 个 框架 下 编写 业务 代码 。 


D2.3) 用 户 模块 


开发 用 户 模块 的 主要 目标 是 根据 用 户 的 特定 需求 定制 和 调整 系统 。 系 统 需要 在 正确 的 
时 间 对 用 户 的 请 求 做 出 正确 的 响应 。 要 达到 这 个 目的 ， 需 要 建立 正确 的 用 户 模型 。 对 于 绝 
大 多 数 Web 应 用 来 说 ， 用 户 模块 是 至 关 重 要 的 。 


2.3.1 Django 自 带 的 用 户 模块 


Diango 自 带 一 个 用 户 模型 。 要 使 用 这 个 模块 ， 需 要 确保 在 项 目的 settings.py 文件 中 有 
下 面 的 配置 
INSTALLED APPS = [ 
ango.contrib.auth'， 站 用 户 验 证 框架 和 模型 
'django.contrib.contenttypes'， # 权限 管理 
MIDDLEWARE = [ 
"dj ango.contrib.sessions.middleware.SessionMiddleware'， 会 话 管理 系统 


"django.contrib.auth.middleware.RAuthenticationMiddleware'， 间 用 户 验证 模型 


Django 实现 用 户 模型 的 代码 路 径 在 django/contrib/auth/models.py 文件 中 ， 摘 录 如 下 : 


class AbstractUser (AbstractBaseUser, PermissionsMixin): 


Username = models.CharField(...... ) # 用 户 名 
first name = models.CharField(.....。 ) 

last name = models.CharField(...... 1 

email = models.EmailField(...... ) # 邮箱 

is_ staff = models.BooleanField(...... ) # 是 否 是 员工 
is active = models.BooleanField(...... ) # 是 否 活跃 
date joined = models.DateTimeField(..... ) # 加 入 的 日 期 


在 上 面 的 模型 中 ， 有 一 些 关键 字段 的 含义 需要 加 以 说 明 : 
@ username: 该 字段 表示 用 户 名 。 在 Django 中， 这 个 字段 用 来 标识 一 个 用 户 ， 不 同 用 
户 的 usermname 是 不 一 样 的 。 


@ first name: 对 于 东方 人 来 说 ， 该 字段 表示 用 户 的 姓氏 ; 对 于 西方 人 来 说 ， 该 字段 表 
示 用 户 的 名 字 。 

@ last name: 和 first name 相对 应 。 对 于 东方 人 来 说 ， 该 字段 表示 用 户 的 名 字 ; 对 于 
西方 人 来 说 ， 该 字段 表示 用 户 的 姓氏 。 

@ email: 该 字段 表示 用 户 的 电子 邮箱 ， 可 以 为 空 字 符 串 。 

@ is_ staff: 该 字段 表示 用 户 是 否 是 内 部 员工 。 该 字段 为 1 时， 表示 用 户 是 员工 ; 该 字 
段 为 0 时 ， 表示 用 户 不 是 员工 。Django 框架 最 初 是 为 报纸 网 站 开发 的 ， 该 网 站 同时 
也 为 非 内 部 员工 和 内 部 员工 服务 ， 因 此 设置 了 这 个 字段 。 

@ is active: 该 字段 表示 用 户 是 否 处 于 活跃 状态 。1 表示 用 户 处 于 活跃 状态 ; 0 表示 用 
户 处 于 不 活跃 状态 。 

@ date joined: 该 字段 表示 创建 用 户 的 日 期 。 

Django 的 模型 可 映射 成 数据 库 的 模式 ， 以 MySQL 为 后 端 数据 库 为 例 ， 最 后 的 建 表 
SQL 如 下 〈 由 于 AbstractUser 类 还 继承 了 另外 两 个 类 ， 建 表 语句 会 多 出 password、last_ 
login、is_superuser 这 3 个 字段 ) : 

CREATE TABLE “auth_user” ( 

“id* int(11) NOT NULL AUTO_ INCREMENT, 

‘password' varchar (128) CHARACTER SET latinl NOT NULL, 
“last login. datetime(6) DEFAULT NULL, 

`“is_superuser ”tinyint (1) NOT NULL, 

>`username ”varchar (150) CHARACTER SET latinl NOT NULL, 
`first_name ”varchar (30) CHARACTER SET latinl NOT NULL, 
“last_name ”varchar (30) CHARACTER SET latinl NOT NULL, 
“email. varchar (254) CHARACTER SET latinl NOT NULL, 
`“is_staff ”tinyint(1) NOT NULL, 

`“is_active`” tinyint (1) NOT NULL, 

“date joined' datetime(6) NOT NULL, 

PRIMARY KEY (“id*), 


UNIQUE KEY ‘username. (`username `) 
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4; 


除了 自 带 模块 ，Django 还 自 带 了 权限 管理 系统 、 分 组 管理 系统 。 我 们 将 在 后 面 的 章节 
讨论 这 个 话题 。 

可 以 看 到 ，Diango 自 带 的 用 户 系 统 记 录 了 用 户 的 用 户 名 、 密 码 、 姓 名 、 电 子 邮 箱 、 加 
入 的 时 间 、 是 否 活跃 、 是 否 是 员工 等 信息 ， 在 很 多 情况 下 ， 这 些 信 息 对 于 一 个 网 站 来 说 是 
足够 的 。 不 过 对 于 老 赵 这 样 卖 女 式 高 跟 鞋 的 商人 来 说 ， 知 道 用 户 的 性 别 是 很 重要 的 ; 不 同 
年 龄 段 的 女性 可 能 对 不 同 款式 的 鞋 有 不 一 样 的 喜好 ， 因 此 最 好 能 知道 用 户 的 年 龄 。 
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在 这 样 的 需求 下 ， 有 必要 对 默认 的 用 户 模型 做 一 些 修改 ， 下 面 我 们 来 看 看 该 怎么 做 。 


2.3.2 一 对 一 扩展 用 户 模 型 


当 需 要 在 Django 自 带 模型 外 另外 存储 一 些 信息 的 时 候 ， 可 以 使 用 一 个 关联 表 ， 有 时 也 


称 为 用 户 档案 〈User Profile)。 这 是 一 种 非常 常见 的 做 法 。 


需要 注意 的 是 ， 采 用 这 个 方法 后 ， 会 在 获取 用 户 信息 时 查询 两 个 表 ， 这 是 额外 的 开销 。 


示例 代码 如 下 : 


from django.db import models 
from django .contrib .auth.models import User 
class Profile (models.Model) : 
GENDER CHOICES = ( 
CM “Male # 男性 
('F', "Female'") # 女性 
) 
user = models.OneToOneField(User, on delete=models.CASCADE) 
gender = models.CharField (max length=1, choices=GENDER CHOICES) # 性 别 
birth date = models.DateField (null=True, blank=True) # 出 生日 期 


简单 说 明 一 下 新 建 的 用 户 档案 模型 的 字段 。 

@ user: 该 字段 和 Django 自 带 用 户 模型 是 一 对 一 的 关系 ， 表 示 Django 自 带 用 户 模型 
中 的 用 户 。 

@ gender: 该 字段 表示 性 别 ，M 表示 男性 ; 下 表示 女性 。 

@ birth date: 该 字段 用 于 记录 用 户 的 出 生日 期 ， 可 据 此 计算 用 户 的 年 龄 。 

用 户 档案 总 是 随 着 用 户 的 创建 而 创建 的 。 在 编写 代码 时 ， 创 建 用 户 的 代码 可 能 会 在 多 


个 地 方 出 现 ， 为 了 避免 出 现 重 复 创建 用 户 档案 的 代码 ， 现 在 定义 一 个 信号 ， 在 创建 用 户 的 
时 候 自 动 创建 档案 。 代 码 如 下 : 


from django.db.models.signals import post _ save 
from django.dispatch import receiver 
@receiver (post save, sender=User) 
def create user profile(sender, instance, created, **kwargs): 
if created: 提 创建 用 户 档案 
Profile.objects.create (user=instance) 
Q@receiver (post save, sender=User) 
def save user profile (sender, instance, **kwargs): 


instance.profile.save() # 保存 用 户 档案 
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在 上 面 的 代码 中 ， 首 先 从 django.db models.signals 中 引入 post_ save 信号 ， 这 个 信号 在 
模型 调用 save 方法 后 发 出 。 在 创建 用 户 档案 时 ， 调 用 receiver 对 其 进行 装饰 ， 这 样 在 User 
模型 调用 save 方法 后 ， 会 调用 注册 的 方法 ， 从 而 达到 自动 创建 和 保存 档案 的 目的 。 

定义 好 模型 后 ， 接 下 来 在 视图 和 模板 中 展示 模型 的 信息 。 在 模板 中 ， 我 们 可 以 选择 展 
示 用 户 名 、 性 别 和 出 生日 期 ， 在 视图 函数 传 入 用 户 的 上 下 文 后 。 模 板 示 例如 下 : 


<h2>{{ user.get full name }}</h2> 


<ul> 
<li>Username: {{ user.username }}</1i> # 显示 用 户 名 
<li>Location: {{ user.profile.gender }}</1i> # 显示 性 别 
<li>Birth Date: {{ user.profile.birth date }}</1Li> # 显示 出 生日 期 
</ul> 


用 户 更 新 个 人 信息 是 一 个 常见 操作 ， 在 业务 逻辑 中 ， 我 们 可 以 获取 一 个 用 户 对 象 ， 然 
后 直接 调用 profile 对 档案 进行 修改 ， 最 后 调用 save 方法 对 数据 进行 更 新 。 示 例 代码 如 下 : 


def update profile (request， user id) : 
user = User.objects.get (pk=user id)  # 获取 用 户 对 象 
user.profile.gender = 'M' ## 设置 性 别 
user.save() # 保存 


在 更 新 用 户 档 案 的 时 候 ， 浏 览 器 上 传 一 个 表单 ， 然 后 由 服务 器 处 理 这 个 表单 ， 在 
Django 中 定义 这 样 的 表单 是 非常 容易 的 ， 因 为 表单 的 字段 和 模型 的 字段 非常 接近 ， 我 们 可 
以 使 用 forms.ModelForm 类 创建 表单 。 示 例 代 码 如 下 : 


class UserForm(forms.ModelForm): 
class Meta: 
model = User # 关联 User 模 型 
fields = ('first name'，'last name'，'email') <# 表单 字段 
class ProfileForm(forms.ModelForm): 
class Meta: 
model = Profile # 关联 Profile 模 型 
fields = ('url'，'gender'，'birth date') # 表单 字段 


创建 表单 后 ， 需 要 修改 对 应 的 视图 函数 ， 对 于 这 个 视图 函数 来 说 有 两 个 任务 ， 一 个 是 


处 理 使 用 POST 方法 上 传 的 数据 另 一 个 是 处 理 使 用 GET 方法 的 请 求 返回 表单 模板 。 示 例 
代码 如 下 : 


Qlogin required ”# 验证 登录 
@transaction.atomic 


DEV rb 


def update profile {request): 
if request.method == 'POST': # POST 请 求 
user _ form = UserForm(request.POST, instance=request.user) # 获 
取 用 户 表 单 信息 
profile form = ProfileForm(request.POST, instance=request.user. 
profile) # 获取 表单 信息 
if user form.is valid() and profile form.is valid() : # 验证 通过 
则 保存 信息 
user form.save () 
profile_ form.save() 
messages.success(request, _('Your profile was successfully 
updated!')) 
return redirect('settings:profile') 
else: # 验证 不 通过 则 显示 错误 信息 
messages.error (request, _('Please correct the error below.')) 
else: 六 其 他 请 求 , 一般 是 GET 请 求 
user form = UserForm (instance=request .user) 
profile form = ProfileForm(instance=request.user.profile) 
# 返回 表单 页 面 
return render(request, 'profiles/profile.html', { 
'user form': user form, 
"Profile_form' : profile form 
}) 


在 上 面 的 代码 中 ， 首 先 判 断 HITP 的 请 求 方法 。 如 果 请 求 的 是 POST 方法 ， 则 调用 
UserForm 的 is_valid 方法 来 对 表单 数据 进行 验证 。 验 证 通过 后 调用 表单 的 save 方法 (因为 
表单 关联 了 模型 , 所 以 也 会 调用 模型 的 save 方 法 ), 将 用 户 档案 保存 到 数据 库 , 完成 操作 后 ， 
将 网 页 重 定向 到 用 户 档案 的 展示 页 面 ; 验证 失败 则 返回 错误 页 面 。 

如 果 请 求 的 是 GET 方法 ， 则 放 回 表单 用 于 展示 。 

在 我 们 的 场景 下 , 向 不 同 用 户 展示 的 业务 大 致 是 一 样 的 , 只 是 包含 的 用 户 信息 略 有 不 同 ， 
这 里 可 以 使 用 Django 自 带 的 模板 。 示 例 代 码 如 下 : 


<form method="post"> 

{% csrf token %} 

{{ user form.as p }} 间 演 染 用 户 表单 

{{ profile form.as p }} # 泻 染 Profile 表 单 

<button type="submit">Save changes</button> # 提交 按钮 
</form> 


上 面 的 模板 非常 简单 ， 它 展示 了 一 个 用 户 表单 、 一 个 用 户 档案 表单 和 一 个 提交 按钮 。 
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2.3.3 ”继承 AbstractBaseUser 


这 个 方法 相对 麻烦 一 些 。 假 设 现在 我 们 的 用 户 系统 完全 不 需要 usemame 这 个 字段 ; 我 


们 也 不 用 
用 户 。 


Django 自 带 的 控制 台 ， 因 此 is_sta 企 字段 也 用 不 着 ; 我 们 需要 用 email 来 标记 一 个 


我 们 可 以 采用 继承 AbstractBaseUser 的 方法 来 完成 这 个 需求 。 代 码 如 下 : 


from 
from 
from 
from 
from 
from 
from 
clas 


_ future import unicode literals 

django.db import models 

django.core.mail import send mail 
django.contrib.auth.models import PermissionsMixin 
django.contrib.auth.base user import AbstractBaseUser 
django.utils.translation import ugettext lazy as _ 
.managers import UserManager 

s User (AbstractBaseUser, PermissionsMixin): 


GENDER CHOICES = ( 


('M', 'Male'), # 男性 
('F', 'Female') # 女性 
) 


gender = models.CharField (max length=1, choices=GENDER CHOICES) # 性 别 
birth date = models.DateField (null=True, blank=True) # ”出 生年 月 
email = models.EmailField( ('email address'), unique=True) # 电子 邮件 
first name = models.CharField( ('first name'), max length=30, blank=True) 
last name = models.CharField( _('last name'), max length=30, blank=True) 
date joined = models.DateTimeField( ('date joined'), auto now add=True) # 注册 


时 间 


is active = models.BooleanField( ('active'), default=True) # 是 否 活跃 


avatar = models.ImageField (upload to="'avatars/', null=True, blank=True) 


# 用 户头 像 
objects = UserManager () 
USERNAME FIELD = 'email' 
REQUIRED FIELDS = [] 
class Meta: 


verbose name = _('user') 
verbose name plural = _('users') 


def get full name (self) : # 获取 用 户 全 名 


full name = '%s %5s' % (self.first name, self.last name) 
return full name.strip() 


def get short name (self): 


return self.first name 


def email user(self, subject, message, from email=None, **kwargs): 


# 向 用 户 发 送 电 子 邮 件 


send mail (subject, message, from email, [self.email], **kwargs) 


上 面 的 代码 尽 可 能 地 贴近 了 现 有 的 用 户 模型 。 值 得 注意 的 是 ， 要 继承 AbstractBaseUser， 
有 一 些 限制 条 件 ， 具 体 如 下 。 
@ 定义 USERNAME FIELD: 这 个 字段 用 作用 户 的 唯一 标识 符 ， 在 定义 的 字段 中 需要 
设置 unique=True。 
@ 定义 REQUIRED FIELDS: 在 使 用 createsuperuser 命令 创建 用 户 时 将 提示 的 字段 名 
称 列表 。 
@ 定义 is active 字段 。 
@ 定义 get full name( ) 方法 。 
@ 定义 get _ short name( ) 方法 。 
现在 要 自 定义 一 个 UserManager， 在 框架 自 带 的 Manager 中 实现 create_user 方法 和 
create_superuser 方法 ， 由 于 字段 有 了 一 些 变 化 ， 需 要 重新 实现 这 两 个 方法 。 代 码 如 下 : 


from django.contrib.auth.base user import BaseUserManager 
class UserManager (BaseUserManager): 
use in migrations = True 
def create user(self, email, password, **extra fields): 
# 使 用 电子 邮件 和 密码 创建 和 保存 用 户 
if not email: 
raise ValueError('The given email must be set') 
email = self.normalize email (email) # 验证 电子 邮箱 
user = self.model (email=email, **extra fields) 
user.set_password (password) # 设置 密码 
user.save (using=self._db) # 保存 用 户 
return user 
def create user(self, email, password=None, **extra fields): 
# 创建 用 户 
extra fields .setdefault("' is_superuser' 7 False) 
return self. create user(email, password, **extra fields) 
def create superuser (self, email, password, **extra fields): 
# 创建 管理 员 
extra fields .Setdefault(" is_superuser'" ,True) 
if extra fields.get ('is superuser') is not True: 
raise ValueError ('Superuser must have is_superuser=True. | 
return self. create user(email, password, **extra fields) 


怎么 在 代码 中 使 用 我 们 自 定义 的 模型 呢 ? 首先 要 修改 settingspy 中 的 AUTH USER_ 
MODEL 字段 。 代 码 如 下 : 


AUTH USER MODEL = "shoes.User' 站 shoes 是 应 用 名 


第 2 章 构建 电 商 网 站 27 


在 代码 中 可 以 直接 通过 引入 自 定义 User 的 代码 路 径 来 使 用 新 的 用 户 模型 ， 不 过 考虑 到 
重用 ， 应 该 使 用 下 面 的 方式 : 

from django.db import models 

from django.conf import settings 


class Address (models.Model): 


# 收 货 地 址 
name = models.CharField (max length=100) 
User = models.ForeignKey (settings.AUTH USER MODEL, on delete=models.CASCADE) 


2.3.4 ”继承 AbstractUser 


要 在 框架 自 带 用 户 模型 中 添加 若干 个 字段 ， 可 以 采用 继承 AbstractUser 方法 。 这 个 方 
法 比 继承 AbstractBaseUser 要 简单 一 些 ， 直 接 加 上 用 户 的 性 别 和 用 户 的 出 生日 期 即 可 。 示 例 


代码 如 下 : 


from django.db import models 
from django.contrib.auth.models import AbstractUser 


class User (AbstractUser) : 


gender = models.CharField (max length=1, choices=GENDER CHOICES) 间 性 别 
birth date = models.DateField (null=True, blank=True) # 出 生年 月 


接 下 来 修改 settings.py 中 的 AUTH_USER_MODEL 配置 。 代 码 如 下 : 


AUTH USER MODEL = 'shoes.User' # shoes 是 应 用 名 

值得 注意 的 是 ， 使 用 继承 AbstractUser 和 AbstractBaseUser 这 两 种 方法 来 扩展 用 户 模型 
时 要 特别 小 心 ， 因 为 这 样 做 会 改变 数据 库 的 表 结 构 。 在 本 书 中 ， 我 们 使 用 Profile 类 来 保存 
用 户 信息 。 


《到 商品 库 模块 
商品 库 用 来 管理 商品 数据 ， 它 为 用 户 界 面 展示 商品 提供 了 数据 支撑 ， 也 给 后 端 管理 商 


品 提供 了 支持 。 
高 跟 鞋 有 多 个 不 同 的 品牌 ， 每 个 品牌 有 多 种 商品 ， 同 种 商品 有 多 种 尺码 和 颜色 ， 本 章 


Django 项 目 开 》 


将 根据 这 样 的 业务 需要 来 设计 商品 模块 。 


2.4.1 设计 模型 


不 同 商品 可 能 有 不 同 的 类 别 , 例如 ,高跟鞋 可 能 有 凉鞋 、 靳 子 等 种 类 ,根据 这 个 应 用 场景 ， 
我 们 来 建立 简单 的 类 别 模型 。 代 码 如 下 : 


class Category (models.Model): 
name = models.CharField('Name', max length=255, db index=True) # 类 别名 称 
description = models.TextField('Description'，blank=True) # 类 别 描述 
products = models.ManyToManyField(Product) # 多 对 多 关系 


接 下 来 建立 简单 的 商品 模型 。 我 们 的 想法 很 简单 ， 对 不 同 颜色 的 同 种 商品 在 名 称 上 进 
行 区 分 ， 这 并 不 是 很 完善 的 做 法 ， 但 是 在 简单 的 场景 下 是 可 行 的 。 代 码 如 下 : 


class Product (models.Model): 
title = models.CharField('Title') # 商品 名 称 
description = models.TextField('Description'，blank=True) # 商品 描述 
attributes = models.TextField('Attribute'，blank=True) # 商品 附属 信息 
date_created = models.DateTimeField() # 商品 创建 时 间 


一 件 商品 可 能 属于 多 种 类 型 ， 多 种 商品 可 能 属于 同 种 类 型 ， 因 此 商品 和 商品 类 型 存在 
着 多 对 多 的 关系 。 我 们 为 商品 和 类 型 的 关系 建立 模型 ， 代 码 如 下 : 


class ProductCategory (models .Model): 
Product = models.ForeignKey (Product) # 商品 
category = models.ForeignKey (Category) # 类 别 


2.4.2 ”获取 商品 


用 户 在 浏览 网 页 的 时 候 ， 很 有 可 能 会 带 有 目的 ， 如 “购买 某 个 种 类 的 鞋子 ”， 这 时 我 
们 就 要 帮助 用 户 列 出 这 个 品类 的 所 有 商品 供 其 挑选 。 示 例 代码 如 下 : 


def get all products (request，category id) : 提 通过 类 别 获取 商品 列表 
return ProductCategory.object.get (pk=category id) 


某 个 品类 下 面 可 能 有 多 种 商品 , 因此 上 面 的 函数 返回 的 是 一 个 列表 (如 果 只 有 一 种 商品 ， 
就 返回 只 有 一 个 元 素 的 列表 ) 。 要 泻 染 这 个 列表 ， 可 以 使 用 Django 模板 中 的 for 标签 。 示 
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例 代 码 如 下 : 


{$$ for product in productions %} 
<p>{{ product.title }}</p> # 商品 的 名 称 
<p>{{ product.descrition }}</p> # 商品 的 描述 
{$s endfor 要 } 


用 户 可 通过 图 片 或 简介 获得 商品 的 第 一 印象 ， 若 要 继续 获取 更 多 商品 信息 ， 则 需要 根 
据 商 品 四 来 获取 详情 。 示 例 代码 如 下 


def get product detail (request，product id) : # 获取 商品 详情 
return Product .object.get (pk=product id) 


订单 模块 是 一 个 非常 复杂 的 模块 。 在 成 熟 的 电 商 系统 中 ， 一 个 订单 通常 要 包含 用 户 、 
销售 渠道 、 商 品 、 库 存 、 供 应 商 、 用 户 服务 〈 退 款 /退货 ) 、 商 品 物流 等 信息 ， 要 讲 清楚 
这 样 一 个 系统 可 以 花 一 整 本 书 。 我 们 这 里 的 需求 比较 简单 ， 只 要 一 个 订单 凭据 ， 让 用 户 拿 
着 这 个 凭据 来 申请 客户 服务 即 可 。 


2.5.1 ”购物 篮 模 型 


在 我 们 的 需求 中 ， 一 次 下 单 可 以 包含 一 个 或 多 个 商品 ， 我 们 把 这 种 购物 行为 想象 成 顾 
客 提 着 一 个 篮子 ， 将 想 购 买 的 商品 放 进 篮子 里 ， 最 后 将 这 一 篮 商品 一 起 下 单 。 现 在 为 这 个 
篮子 建立 模型 ， 代 码 如 下 : 


class Basket (models.Model): 

STATUS CHOICES = ( 
("Open", "Open"), # 打开 状态 ,可 以 继续 添加 商品 
("Ordered"，"Ordered") 间 已 下 单 状态 

) 

owner = models.ForeignKey (AUTH USER MODEL) # 购物 用 户 

status = models.CharField (choices=STATUS CHOICES) # 购物 篮 状 态 

date created = models.DateTimeField() # 创建 日 期 

date ordered = models.DateTimeField() # 下 单 日 期 


MEV 


一 个 购物 篮 可 以 放 一 个 或 多 个 商品 , 这 是 一 个 一 对 多 的 关系 。 现 在 为 这 个 关系 建立 模型 ， 
代码 如 下 : 


class Line (models.Model) : 


2.5:2 


basket = models.ForeignKey(Basket) 间 购物 篮 

product = models.ForeignKey (Product) # 商品 

quantity = models.PositiveIntegerField(default=1) # 商品 数量 
date created = models.DateTimeField()  ## 创建 时 间 


订单 模型 


购物 篮 建立 后 ， 即 可 开始 设计 订单 模型 ， 我 们 这 里 设计 的 是 一 对 一 的 关系 ， 即 一 个 订 
单 只 对 应 设计 一 个 购物 篮 。 代 码 如 下 : 


class Order (models.Model): 


basket = models.ForeignKey (Basket)  # 购物 篮 

user = models.ForeignKey (AUTH USER MODEL) # 用 户 
status = models.CharField()  # 订单 状态 

created date = models.DateTimeField() ## 订单 创建 时 间 
currency = models.CharField() # 总 价 


订单 中 的 信息 非常 重要 ， 订 单 的 每 次 修改 都 应 该 被 记录 下 来 ， 用 于 后 续 的 审计 ， 我 们 
把 这 样 的 记录 称 为 注解 。 一 个 订单 可 能 对 应 多 个 注解 ， 因 此 这 是 一 个 一 对 多 的 关系 。 下 面 
我 们 建立 注解 模型 ， 代 码 如 下 : 


class OrderNote (models .Model): 


order = models.ForeignKey (Order) # 订单 
user = models.ForeignKey (AUTH USER MODEL) # 用 户 
message = models.TextField() ”# 注解 信息 
date created = models.DateTimeField()  # 创建 时 间 
date updated = models.DateTimeField() # 更 新 时 间 


另外 ， 订 单 有 着 自己 的 生命 周期 ， 可 能 会 有 “下 单 ”“ 运 送 ”“ 完 成 ”等 状态 ， 系 统 
应 该 能 够 完整 记录 这 些 状 态 , 以 帮助 我 们 掌握 订单 的 流转 过 程 , 在 出 现 问题 的 时 候 方 便 排查 。 
为 订单 状态 的 流转 建立 模型 ， 代 码 如 下 : 


class OrderstatusChange (models.Model): 


order = models.ForeignKey (Order) # 订单 
old _ status = models-CharField() ## 旧 的 状态 
new_status = models.CharField() ## 新 的 状态 


date created = models.DateTimeField() # 创建 时 间 


与 客户 的 沟通 是 非常 重要 的 ， 在 系统 状态 发 生 改 变 的 时 候 ， 最 好 通知 客户 ， 这 样 有 助 
于 沟通 ， 建 立 网 站 和 客户 之 间 的 信任 。 我 们 也 需要 把 这 些 沟通 的 内 容 记录 保 存 下 来 ， 在 出 
现 问题 时 有 助 于 定位 问题 。 代 码 如 下 : 


class CommunicationEvent (mode1s.Model) : 
order = models.ForeignKey (Order) 半 订单 
event type = models.CharField()  ”# 沟通 事件 类 型 , 如 电子 邮件 、 电 话 、 回 访 等 
date created = models-DateTimeField()  # 创建 时 间 
当然 ， 我 们 还 需要 记录 订单 里 面 的 商品 详情 。 这 个 模型 和 购物 车 Line 模型 很 类 似 ， 区 
别 在 于 订单 商品 详情 可 能 会 包含 合作 伙伴 的 相关 信息 。 要 确定 一 个 订单 包含 的 商品 ， 可 以 
以 这 个 模型 为 准 ， 代 码 如 下 : 


class OrderLine (models.Model): 
order = models.ForeignKey (Order) # 订单 
product = models.ForeignKey (Product) # 商品 
title = models.CharField() 亲 商品 名 
quantity = models.PositiveIntegerField (default=1) # 商品 数量 
unit price = models.DecimalField()# 单价 
event type = models.CharField() ”=# 沟通 事件 类 型 ,如 电子 邮件 、 电 话 、 回 访 等 
date_created = models.DateTimeField() # 创建 时 间 


由 于 订单 模块 的 复杂 度 高 ， 涉 及 的 模型 数量 多 ， 在 实际 开发 的 时 候 会 有 涉及 多 模型 之 
间 的 聚合 或 多 次 查询 。 为 了 优化 这 样 的 查询 ， 在 设计 模型 时 可 以 添加 一 些 “ 宛 余 ”字段 ， 
OrderLine 中 的 title 字段 就 是 见 余 的 ， 目 的 是 通过 一 次 查询 获取 商品 名 称 ; 若 不 设计 元 余 
要 获取 商品 名 称 ， 还 需要 查询 一 次 商品 表 。 


2.5.3 ”获取 订单 数据 


对 于 系统 来 说 ， 用 户 查 询 自己 的 购物 记录 ， 其 实 等 同 于 查询 用 户 的 订单 历史 记录 。 要 
想 获 取 用 户 的 订单 历史 记录 ， 需 要 输入 用 户 的 ID， 可 能 还 有 一 些 查 询 条 件 ， 如 订单 出 现 的 
时 间 范 围 等 ， 然 后 返回 一 系列 订单 对 象 。 示 例 代 码 如 下 : 


def get order list(user id, start date, end date): 
order list=Order.objects.filter (user idruser id) .flter(date created gt=start _ 
date, date created lt=end date)  # 获取 一 段 时 间 内 的 订单 列表 


return order list 
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要 想 让 用 户 清楚 地 看 到 自己 的 购物 历史 ， 可 以 使 用 表格 的 方式 展示 数据 ， 将 订单 的 
ID、 状 态 、 创 建 时 间 、 总 花费 呈现 出 来 。 模 板 示例 代 码 如 下 : 


<table> 
3 
<th> 订单 ID </th> 
<th> 订单 状态 </th> 
<th> 创建 时 间 </th> 
<th> 花费 </th> 
EE 
E> 
{% for order in order list %} 
<td> {{ order.id }} </td> 
<td> {{ order.status }} </td> 
<td> {{ order.date created }} </td> 
{ 务 endfor %} 
</tr> 
</table> 


用 户 也 会 想 要 知道 一 个 订单 里 有 哪些 商品 ， 对 于 系统 来 说 ， 实 际 上 就 是 获取 订单 的 商 
品 详情 。 获 取 商 品 详情 ， 需 要 输入 订单 的 DD， 然后 返回 商品 的 列表 。 示 例 代码 如 下 : 


def get order detailt (order id) : 
order line list = OrderLine.objects.filter (order id=order id) # 订单 
return order line list 


在 展示 层 ， 用 户 可 能 会 比较 购买 的 商品 、 商 品 数量 和 商品 单价 ， 同 样 地 ， 也 可 以 以 表 
格 的 形式 将 这 些 信息 展现 出 来 。 模 板 代码 如 下 : 


<table> 
<tr> 
<th> 商品 名 </th> 
<th> 商品 数量 </th> 
<th> 商品 单价 </th> 
</tr> 
KEFE> 
{S$ for line in order line list %} 
<td> 0 Tino.ticle Yr </taS 
<td> {{ line.quantity }} </td> 
<td> {{ line.unit price }} </td> 
{SS endfor $} 
</Er> 
</table> 
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统计 模块 


统计 数据 对 于 网 站 的 运营 人 员 来 说 是 至 关 重 要 的 。 运营 人 员 在 网 站 的 日 常 运营 工作 中 ， 
需要 对 他 们 的 工作 成 果 有 一 个 能 够 量化 的 衡量 标准 ， 以 观察 工作 效果 ， 据 此 估算 网 站 未 来 
的 运营 目标 并 对 具体 的 运营 事务 作出 调整 。 

统计 是 一 门 非常 复杂 的 学 科 ， 它 是 数学 的 一 个 分 支 ， 涉 及 数据 收集 、 数 据 组 织 、 数 据 分 析 、 
展示 等 内 容 。 数据 统计 分 析 的 专业 程度 是 很 高 的 , 在 组 织 内 部 往往 由 专门 的 团队 来 负责 相关 的 工作 。 

对 于 我 们 实现 的 这 个 简单 的 电 商 网 站 来 说 ， 因 为 其 需求 简单 ， 所 以 数据 的 采集 过 程 
也 比较 简单 。 主 要 做 法 是 将 请 求 网 站 的 流量 保存 到 数据 库 、 记 录用 户 请 求 的 日 志 及 借助 
Google Analytics 等 第 三 方 平台 和 工具 收集 数据 。 

简单 的 统计 可 以 通过 数据 库 聚 合 查询 得 到 结果 ， 在 数据 量 比较 少 、 统 计 指 标 比较 单一 
的 时 候 ， 这 是 一 种 非常 直观 且 简单 的 方式 。 这 样 统计 得 到 的 结果 是 实时 的 。 

不 过 直接 使 用 数据 库 聚 合 查询 也 有 一 些 缺 点 ， 首 先是 可 能 对 数据 服务 造成 负担 。 在 数 
据 量 非常 大 的 时 候 ， 这 不 但 会 造成 对 数据 服务 的 压力 ， 而 且 会 出 现 计算 时 间 过 长 等 问题 。 

面 对 这 些 问 题 ,流行 的 做 法 是 “离线 计算 ”比较 简单 的 离线 计算 是 从 数据 服务 获取 数据 ， 
然后 采用 定时 运行 脚本 的 方式 ， 计 算得 到 统计 数据 后 存储 到 磁盘 或 者 数据 库 中 ，Web 服务 
器 接 到 统计 数据 的 请 求 后 ， 从 磁盘 或 数据 库 中 直接 读 取 数 据 ， 然 后 响应 请 求 ， 从 而 实现 计 
算 的 异步 。 

现在 流行 一 些 比 较 复 杂 的 离线 计算 框架 ， 如 Apache Hadoop、Apache Spark 等 ，Python 
也 有 一 些 流行 的 统计 包 ， 如 pandas、numpy 等 ， 这 些 框架 和 包 已 经 超出 了 本 书 范畴 ， 这 里 
不 做 展开 。 

这 里 采用 简单 的 做 法 ， 通 过 定时 运行 脚本 的 方式 将 数据 存储 到 数据 库 中 。 

首先 要 为 统计 的 数据 建立 模型 。 统 计 结 果 应 该 根据 数据 的 粒度 和 维度 进行 区 分 。 这 里 
我 们 以 业务 的 不 同 模块 作为 维度 ， 共 有 用 户 、 商 品 、 订 单 这 3 个 维度 。 我 们 以 统计 周期 作 
为 粒度 ， 代 表 不 同时 间 段 的 统计 数据 ， 同 时 以 名 字 来 代表 指标 。 模 型 如 下 : 


class Metrics (models.Model): 


metric name = models.CharField() ## 指标 名 

dimension = models.CharField() # 维度 

granularity = models.CharField(). # 粒度 

label = models.DateTimeField(). # 用 于 标记 统计 的 开始 时 间 


date created = models.DateTimeField() # 创建 时 间 


Django 项 目 开发 实战 


说 明 : 

@ metric name: 用 于 标记 某 一 个 指标 ， 如 用 increased products 来 代表 某 一 段 时 间 内 
增长 的 商品 总 数 。 

@ dimension: 用 于 标记 统计 的 业务 维度 ， 如 用 product 来 表示 产品 维度 。 

@ granularity: 用 于 标记 统计 的 粒度 ， 如 用 daily 表示 每 日 的 统计 ， 用 weekly 表示 每 周 
的 统计 。 

@ label: 用 于 标识 统计 的 开始 时 间 。 假 设 label 为 2018-10-12， 当 granularity 为 daily 
时 ， 表 示 统 计 2018 年 10 月 12 日 的 统计 结果 ; 当 granularity 为 weekly 时 ， 表 示 统 
计 2018 年 10 月 12 日 到 2018 年 10 月 18 日 的 统计 结果 。 


本 章 讲解 了 一 个 简单 的 电 商 网 站 的 开发 过 程 。 在 实际 编码 前 ， 许 多 事情 需要 做 ， 如 需 
求 分 析 、 需 求 评审 、 技 术 选 型 等 ， 这 些 工作 是 至 关 重 要 的 。 

本 章 开 发 的 网 站 极其 简单 ,示例 代码 主要 用 来 展现 模块 化 开发 的 思想 。 在 后 面 的 章节 ， 
我 们 将 在 这 个 基础 上 深入 更 多 的 细节 和 实践 。 


[2.8) 练 “ 习 


问题 一 : 开发 本 章 所 示 的 电 商 网 站 一 共 需 要 几 个 阶段 ? 
问题 二 : 我 们 实现 的 电 商 网 站 有 哪些 模块 ? 
问题 三 : 如 果 要 记录 用 户 的 收 货 地 址 ， 您 能 参考 已 有 的 实现 ， 实 现 这 个 功能 吗 ? 


第 3 章 ”Django 和 数据 库 


Django 的 模型 体现 了 面向 对 象 编程 思想 ， 是 一 种 面向 对 象 编程 语言 和 不 兼容 类 型 系统 之 间 转 换 
数据 的 编程 技术 ， 这 种 技术 又 称 为 对 象 关 系 映 射 ( Object Relation Mappimg，ORM ) 。Dijango 的 
ORM 功能 十 分 强大 ， 可 以 极 大 地 提升 开发 效率 。 

本 章 涉及 的 主要 知识 点 : 

@ 模型 使 用 : 学 习 使 用 模型 操作 数据 库 。 

@ 数据 库 并 发 访问 控制 : 学 习 使 用 模型 对 数据 库 进行 并 发 访问 控制 。 

@ 扩展 数据 库 : 学 习 使 用 模型 扩展 数据 库 。 

@ MySQL 最 佳 实践 : 学 习 MySQL 的 最 佳 实践 。 


和 Django 的 其 他 功能 一 样 ， 使 用 Django 开发 的 应 用 也 可 以 在 settings.py 中 对 数据 库 进 
行 配置 。 这 部 分 和 应 用 逻辑 是 解 耦 的 。 

Django 支持 很 多 数据 库 的 配置 ， 如 PostgreSQL (流行 的 开源 关系 型 数据 库 ) 、 
MySQL、Oracle〈 甲 骨 文 公司 开发 的 商用 数据 库 ) 等 。 本 节 将 以 MySQL 为 例 来 说 明 如 何 使 
用 Django 来 配置 应 用 使 用 数据 库 的 行为 。 


3.1.1 配置 


为 了 描述 方便 ， 现 在 假设 您 已 经 有 一 个 可 以 访问 到 的 MySQL 服务 ， 服 务 的 监听 下 为 
127.0.0.1， 端 口 为 3306， 创 建 的 数据 库 名 为 data; 同时 已 经 在 数据 库 上 建 了 用 户 ， 用 户 名 
是 yonghu， 密 码 为 mima; 并 且 该 用 户 有 从 所 在 的 网 络 环境 访问 data 数据 库 的 权限 。 我 们 
将 以 此 为 前 提 来 进行 下 面 的 配置 。 

在 Django 中 配置 数据 库 连 接 是 非常 简单 的 。 对 于 使 用 django-admin 工具 创建 的 项 目 ， 
settings.py 中 已 经 有 了 DATABASES 这 个 变量 ， 如 果 没 有 的 话 ， 可 直接 创建 这 个 变量 ， 这 
个 变量 的 类 型 是 字典 。 示 例 代 码 如 下 : 


Django IE 


# 这 里 是 settings .py 的 内 容 
DATABASES = { 


"defauilt": { 
'ENGINE': 'django.db.backends.mysql', # 配置 引擎 
OPTIONS™:: { 
'read default file': '/path/to/my.cnf', # 配置 文件 路 径 
}, 
'USER': 'yonghu', # 数据 库 用 户 名 
'PASSWORD' : "mimay # 数据 库 
HOST T1270 0 1 数据 库 服务 监听 IP 
"PORT' : '3306', # 数据 库 服务 监听 端口 
'NAME': 'data', # 数据 库 名 字 


: 

# 这 里 是 /path/to/my .cnf 文 件 的 内 容 
[client] 

database = data 

user = yonghu 

password = mima 
default-character-set = utf8 


host 
port 


L2700: 
3306 


连接 配置 的 使 用 有 一 定 的 顺序 ， 如 果 配 置 中 定义 了 OPTIONS， 则 OPTIONS 中 定 
义 的 连接 信息 会 被 优先 使 用 ， 如 果 没 有 定义 OPTIONS， 则 配置 中 的 USER、NAME、 
PASSWORD、HOST、PORT 将 会 被 用 到 。 

DATABASES 中 定义 的 数据 库 的 数量 不 受 限制 ， 但 必须 定义 一 个 名 为 default 的 数据 库 。 
数据 库 支持 的 配置 如 下 : 


ENGINE: 这 个 配置 定义 数据 库 后 端 。Django 自 带 后 端 支持 PostgreSQL、MySQL、 
SQLite、Oracle。 

HOST: 指定 要 连接 的 数据 库 主机 地 址 。 这 是 一 个 字符 串 ， 若 为 空 字符 串 ， 则 默认 
主机 地 址 是 localhost。 若 后 端 使 用 的 数据 库 是 MySQL， 则 可 以 指定 用 于 连接 的 套 
接 字 路 径 ， 如 '/var/run/mysql.sock'。 


@ NAME: 数据 库 名 。 


CONN_MAX AGE: 一 个 连接 的 生命 周期 ， 单 位 是 秒 (s) 。 该 字段 设置 为 0， 代 
表 在 请 求 结束 的 时 候 断 开 连 接 。 

OPTIONS: 默认 是 空 字典 ， 用 于 配置 连接 到 数据 库 的 额外 参数 。 

PASSWORD: 连接 数据 的 密码 ， 默 认 是 空 字符 串 。 
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@ PORT: 数据 库 的 端口 号 ， 是 一 个 字符 串 。 
@ USER: 连接 数据 库 的 用 户 名 。 


3.1.2 ”连接 池 


在 正式 向 数据 库 发 起 请 求 前 ， 应 用 程序 需要 建立 到 数据 库 的 连接 ， 建 立 连 接 的 操作 比 
较 耗 时 ， 并 且 会 消耗 很 多 资源 。 

以 MySQL 为 例 ， 其 同时 支持 的 连接 数量 有 一 个 上 限 ， 这 个 值 由 MySQL 的 max_ 
connection 配置 。 而 应 用 程序 一 般 会 非常 频繁 地 使 用 数据 库 来 查询 数据 或 者 更 新 数据 。 
Django 默认 的 处 理 是 在 新 请 求 进来 的 时 候 创建 数据 库 连 接 ， 然 后 在 完成 请 求 后 关闭 连接 。 

上 面 列举 的 情况 在 每 次 新 请 求 进 来 的 时 候 都 会 发 生 , 当 同一 时 间 请 求 的 数量 足够 多 时 ， 
应 用 程序 和 数据 库 之 间 创 建 的 连接 数量 也 会 变 多 。 

在 大 多 数 情况 下 ， 这 种 连接 是 网 络 连 接 。 连 接 的 过 程 使 用 了 网 络 套 接 字 ， 而 创建 和 连 
接 套 接 字 是 一 个 非常 耗 时 的 操作 ， 并 且 在 初始 化 的 时 候 还 会 涉及 查询 数据 库 的 操作 。 在 短 
时 间 内 创建 过 多 连接 ， 会 明显 降低 应 用 程序 的 运行 速度 ， 并 且 增 加 数据 库 服务 的 压力 。 

使 用 连接 池 对 这 种 状况 有 一 定 的 缓解 。 使 用 连接 池 的 方法 ， 即 将 数据 库 连 接 放 到 应 用 
程序 的 缓存 中 ， 在 应 用 程序 需要 多 数据 库 发 出 请 求 时 ， 先 从 连接 池 中 获取 连接 ， 然 后 使 用 这 
个 连接 请 求 数据 库 , 在 请 求 完 成 后 , 将 连接 重新 放 回 连接 池 。 连接 池 的 工作 方式 如 图 3.1 所 示 。 

从 连接 池 实际 的 物 
获取 连接 理 连接 


应 用 程序 连接 池 而 数据 库 


图 3.1 连接 池 的 工作 方式 


Django 在 首次 进行 数据 查询 时 会 打开 与 数据 库 的 连接 。 这 个 连接 保持 在 打开 状态 ， 并 
在 后 续 请 求 中 重用 。 当 这 个 连接 存在 的 时 间 超 过 设计 的 生命 周期 时 ， 这 个 连接 被 关闭 ， 生 
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命 周期 由 CONN MAX AGE 设置 。 

Django 本 身 并 不 支持 连接 池 的 配置 ， 要 实现 连接 池 ， 可 以 使 用 第 三 方 包 ， 这 里 使 用 
django_db polling 包 。 

首先 安装 这 个 包 ， 在 命令 行 中 执行 下 面 的 命令 ， 然 后 修改 wsgipy 文件 ， 添 加 对 连接 池 
的 配置 

# 在 命令 行 中 输入 

pip install django db pooling 

pip install pymysql 

# 在 wsgi .py 文件 中 修改 代码 如 下 

import os # 引入 os 模块 

import pymysql # 引入 pymysql 模 块 

from django.core.wsgi import get wsgi application 

from django db pooling import pooling # 引入 pooling 模 块 

pymysql.install as MysQLdb()。 

05.environ.setdefault ("DJANGO SETTINGS MODULE", "xxxxx.settings") # 设置 setting 模 块 

application = get wsgi application() # 获取 wsgi 应 用 

pooling.set pool size(4) # 配置 连接 池 大 小 

pooling.apply_patch() 间 应 用 补丁 


完成 以 上 修改 后 ， 修 改 CONN_MAX AGE， 一 般 设 置 为 60。 


3.1.3 ”更改 表 结 构 


Django 提供 的 迁移 工具 可 以 将 对 模型 所 做 的 更 改 应 用 到 数据 库 ， 修 改 对 应 的 表单 结构 
和 数据 。 

Django 提供 了 3 个 常用 命令 ， 分 别 是 migrate、makemigration、sqlmigrate。migrate 命 
令 负责 将 迁移 应 用 到 数据 库 ，makemigration 负责 将 模型 的 变动 转换 成 迁移 ，sqlmigrate 会 
输出 应 用 变动 时 实际 执行 的 SQL 语句 。 

每 个 应 用 都 有 自己 的 迁移 ， 因 此 每 个 应 用 的 文件 夹 下 都 有 一 个 migrations 包 。 可 以 把 
迁移 看 作 数 据 库 表 结 构 变 更 的 版 本 控制 系统 。makemigrations 会 将 模型 的 变更 打包 到 单个 迁 
移 文件 中 。migrate 命令 用 于 将 这 个 迁移 应 用 到 数据 库 中 。 

下 面 来 举例 说 明 如 何 应 用 迁移 ， 以 第 2 章 的 商品 应 用 为 例 来 为 Product 模型 建立 迁移 ， 
在 命令 行 中 执行 以 下 命令 : 


$ python manage.py makemigrations product 
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Migrations for "product' : 
0001 initial.py: 
— Create Model Product 


上 面 的 命令 会 扫描 商品 应 用 中 的 模型 ， 与 当前 包含 在 迁移 文件 中 的 版 本 进行 比较 ， 然 
后 生成 一 个 新 的 迁移 ， 迁 移 的 内 容 放 在 0001_inital py 文件 中 。 
接 下 来 验证 一 下 迁移 时 实际 执行 的 SQL 语句 ， 在 命令 行 中 执行 命令 : 


$ python manage.py sqlmigrate product 0001 

BEGIN; 

CREATE TABLE ‘product product* (“id integer AUTO INCREMENT NOT NULL PRIMARY 
KEY, title” varchar(255) NOT NULL, ‘description’ longtext NOT NULL, 
“attributes. longtext NOT NULL, ‘date created' datetime(6) NOT NULL); 


COMMIT; 


可 以 看 到 ， 执 行 的 SQL 语句 和 预期 的 一 致 。 一 般 来 说 ， 企 业内 部 都 会 有 专业 的 DBA 
来 处 理 数据 表 的 创建 和 更 改 ， 我 们 通过 sqlmigrate 命令 得 到 要 创建 的 SQL 语句 ， 然 后 将 该 
SQL 语句 提交 给 DBA 执行 即 可 。 

也 有 一 些 情况 需要 我 们 手动 去 创建 数据 库 表 ， 如 创建 本 地 的 开发 环境 数据 库 表 ， 这 时 
就 可 以 用 migrate 命令 来 创建 表 。 命 令 如 下 : 


$ python manage.py migrate product 
Operations to perform: 
Apply all migrations: product 
Synchronizing apps without migrations: 
Creating tables... 
Running deferred SQL... 
Installing custom SQL... 
Running migrations: 
Rendering model states... DONE 
Applying product.0001 initial... 


如 果 想 验证 迁移 之 后 的 结果 ， 则 可 以 通过 MySQL 命令 行 客户 端 执 行 相应 命令 ， 查 看 
新 建 的 表 结构 。 以 刚 创 建 的 product_product 表 为 例 ， 命 令 如 下 : 


mysql> describe product product; 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 二 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Field | Type | Null | Key | Default | Extra | 


| id | 3nt (1 | NO | PRI | NULL | auto increment | 
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| title | varchar (255) | NO | | NULL | 1 
| description | longtext | NO 1 | NULL 1 | 
| attributes | longtext | NO | | NULL 1 | 
| date created | datetime(6) | NO | | NULL 1 | 
二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 十 -一 一 一 一 十 -一 一 -一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


5 rows in set (0.00 sec) 


询 


一 旦 数据 模型 创建 完成 ，Django 会 自动 为 模型 提供 一 个 数据 库 抽象 API， 人 允许 创建 、 
检索 、 更 新 和 删除 对 象 。 在 本 节 ， 我 们 会 学 习 如 何 使 用 这 些 API， 同 时 学 习 Django 执行 查 
询 语句 的 过 程 。 


3.2.1 保存 对 缆 


为 了 在 Python 对 象 中 表示 数据 表 数 据 ，Django 使 用 了 一 个 直观 的 系统 : 模型 类 表示 数 
据 库 表 ， 该 类 的 实例 表示 数据 库 表 中 的 特定 记录 。 

在 创建 对 象 后 ， 通 过 调用 save( ) 方法 可 以 将 对 象 存 到 数据 库 ， 如 下 面 的 示例 代码 : 

>>> from category.models import Category # 第 2 章 定义 的 商品 种 类 

>>> c = Category (name=" 女 式 凉 鞋 "，description=" 女 式 高 跟 凉鞋 ") ”# 新 建 凉鞋 对 象 

>>> c.save() # 将 对 象 存 到 数据 库 

Django 会 将 上 面 的 代码 转换 成 一 条 INSERT 语句 。 在 显 式 调 用 save( ) 方法 前 ，Diango 
不 会 访问 数据 库 。 

要 保存 对 对 象 的 修改 ， 同 样 使 用 save( ) 方法 ， 示 例 代码 如 下 : 

>>> cl.name = " 女 靳 "  # cl 是 另外 一 个 高 跟 鞋 对 象 

>>> cl.save() # 保存 修改 

上 面 的 代码 会 被 Django 转换 成 一 条 UPDATE SQL 语句 。 同 样 的 , 在 调用 save( ) 方 法 前 ， 
Django 不 会 访问 数据 库 。 
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3.2.2 ”获取 对 象 


要 从 数据 库 中 检索 对 象 ， 需 要 通过 模型 类 的 管理 器 构造 查询 集合 。 

QuerySet 表示 数据 库 中 的 对 象 集 合 。 可 以 在 一 个 QuerySet 上 应 用 零 个 、 一 个 或 多 个 
过 滤器 ， 过 滤器 根据 给 定 的 参数 缩小 查询 结果 的 范围 。 在 SQL 术语 中 ，QuerySet 等 同 于 
SELECT 语句 ， 而 过 滤器 是 限制 子 句 ， 如 WHERE 或 LIMIT。 

每 个 模型 至 少 有 一 个 Manager， 可 以 使 用 Manger 来 获取 QuerySet。 默 认 情况 下 通过 调 
用 模型 类 的 objects 来 获取 Manager，Manager 是 获取 QuerySet 的 主要 来 源 。 示 例 代 码 如 下 : 


>>> Product.objects 
<django.db.models.manager.Manager object at ...> 


可 以 通过 调用 Manager 的 all( ) 方法 来 获取 数据 表 中 的 所 有 对 象 ， 代 码 如 下 : 


>>> all products = Product .objects.all () 


通常 情况 下 ， 我 们 只 需要 获取 全 部 对 象 的 子 集 ， 这 就 要 用 到 过 滤器 。 例 如 ， 获 取 2018 
年 创建 的 商品 : 


>>> Product .objects .filter (date created year=2018) 


对 QuerySet 加 上 过 滤器 返回 的 也 是 一 个 QuerySet， 因 此 可 以 将 过 滤器 连 在 一 起 。 例 如 ， 
下 面 的 查询 将 返回 2018 年 所 有 非 12 月 份 创建 的 商品 : 


>>> Product.objects.filter (date created year=2018) .exclude (date _ created month=12) 


使 用 Python 的 数组 切片 语法 可 以 对 QuerySet 的 结果 数量 进行 限制 ， 就 像 SQL 语法 中 
的 LIMIT 和 OFFSET 子 句 一 样 。 代 码 如 下 : 


>>> Product.objects.all()[5:10] # 相当 于 OFFSET 5 LIMIT 5 


有 了 时候 我 们 也 需要 连 表 查询 ， 如 我 们 想 知道 用 户 名 为 zhangpeng 的 人 的 所 有 订单 ， 查 
询 语句 如 下 : 


>>> Order.objects.filter (user username="zhangpeng") 


在 这 个 例子 中 ，Django 会 将 代码 转 成 一 条 JOIN 语句 ， 联 合 User 模型 和 Order 模型 对 
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应 的 数据 表 查 到 我 们 想 要 的 数据 。 
上 面 使 用 的 filter( ) 和 exclude( ) 方法 ， 对 应 SQL 中 的 AND 查询 。 如 果 想 使 用 其 他 查 
询 语 法 (如 OR 查询 )， 则 可 以 使 用 Q 对 象 。 
Q 对 象 是 用 于 封装 关键 字 参 数 集合 的 对 象 。 可 以 使 用 人 广 和 | 来 组 合 Q 对 象 ， 结 果 也 是 
一 个 Q 对 象 ， 代 码 如 下 : 
Product .objects.get( 
Q(title startswith="Women"), 


Ql(date created=date(2005, 5, 2)) | Ql(date created=date(2005, 5, 6)) 
) 


以 上 代码 会 被 大 致 翻译 成 下 面 的 SQL 语句 : 


SELECT * from product WHERE title LIKE 'Women%s' RND (date created = 
'2005-05-02' OR date created = '2005-05-06') 


3.2.3 ” 懒 加 载 和 缓存 


QuerySet 采用 了 懒 加 载 的 机 制 。 创 建 QuerySet 不 会 访问 数据 库 ， 只 有 在 用 到 结果 的 时 
候 才 去 访问 数据 库 ， 下 面 列 出 使 用 查询 结果 的 情况 。 

@ 遍历 : QuerySet 是 可 和 迭代 的 ， 在 第 一 次 选 代 的 时 候 执行 数据 库 查询 。 

@@ 切片 : 对 未 评估 的 QuerySet 进行 切片 会 返回 另 一 个 未 评估 的 QuerySet， 但 如 果 使 

用 切片 语法 的 step 参数 ， 则 Django 将 执行 数据 库 查 询 ， 并 返回 一 个 列表 。 

@ 使 用 repr() 方法 : 对 QuerySet 调用 该 方法 会 让 Django 执行 数据 库 查 询 。 

@ 使 用 len() 方 法 : 同 repr()。 

@ 使 用 list() 方 法 : 同 repr()。 

@ 使 用 bool() 方 法: 同 repr()。 

为 了 减少 对 数据 库 的 负载 ， 每 个 QuerySet 都 会 保留 一 份 缓存 。 理 解 这 个 缓存 的 工作 过 
程 对 于 编码 是 很 重要 的 。 

在 新 创建 的 QuerySet 中 ,缓存 为 空 。 在 第 一 次 评估 QuerySet 且 因 此 发 生 数 据 库 查 询 后 ， 
Django 会 将 查询 结果 保存 在 QuerySet 的 缓存 中 ， 并 返回 已 明确 请 求 的 结果 。 例 如 ， 下 面 的 
代码 会 查询 两 次 数据 库 : 


>>> print([p.date created for p in Product.objects.all()]) 
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>>> print([p.title for p in Product.objects.all()]) 
注意 ， 这 两 次 查询 的 结果 可 能 不 同 。 要 想 使 用 缓存 ， 可 以 这 样 写 : 


>>> queryset = Product.objects.all() 
>>> print ([p.date created for p in queryset]) 
>>> print([p.title for p in queryset]) 


QuerySet 并 不 总 是 缓存 其 结果 。 当 仅 评估 部 分 查询 集 时 ， 其 将 会 检查 缓存 ， 但 如 果 评 
估 的 那 部 分 没有 缓存 ， 则 后 续 查 询 返 回 的 项 目 不 会 缓存 。 有 具体 地 说 ， 使 用 数组 切片 或 索引 
限制 查询 数量 将 不 会 填充 缓存 。 具 体 来 看 一 个 例子 ， 涉 及 的 代码 如 下 : 

>>> queryset = Product.objects.all() 


>>> print (queryset[5]) # 查询 数据 库 
>>> print (queryset[5]) # 再 次 查询 数据 库 


不 过 ， 如 果 QuerySet 已 经 被 评估 了 ， 则 缓存 将 被 使 用 。 代 码 如 下 : 


>>> queryset = Product.objects.all() 

>>> [product for product in queryset] # 查询 数据 库 
>>> print (queryset[5])  # 使 用 缓存 

>>> print (queryset[5]) 使 用 缓存 


3.2.4 ”聚合 查询 


在 实际 的 应 用 场景 中 ， 经 常 需 要 对 查 到 的 数据 集 做 一 些 简单 运算 并 返回 结果 ， 这 称 为 
聚合 查询 。Diango 的 ORM 是 支持 聚合 查询 的 ， 如 统计 查询 结果 的 数量 : 


>>> Product.objects .count () 


对 某 个 字段 求 平 均值 , 如 对 所 有 购物 篮 的 每 一 条 记录 中 的 商品 数量 求 平均 值 , 在 实际 中 ， 
这 样 查询 基本 没有 意义 ， 我 们 在 这 里 只 是 为 了 说 明 求 平 均值 的 用 法 : 


>>> from django .db.models import Avg 
>>> Line.objects.all() .aggregate (Avg ('quantity')) 


在 日 常 业 务 中 ， 还 有 求 最 大 值 、 最 大 值 与 平均 值 的 差 等 统计 和 需求， 这些 都 可 以 用 
QuerySet 来 实现 : 
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>>> from django.db.models import Max 

>>> Line.objects.all() .aggregate (Max ('quantity')) # 求 最 大 值 

>>> from django.db.models import Max 

>>> Line.objects.all () .aggregate (quantity diff=Max('quantity') - Avg('quantity')) 

# 求 最 大 值 和 平均 值 的 差 

aggregate( ) 子 句 的 参数 描述 了 想 要 计算 的 聚合 值 。 

也 可 以 对 QuerySet 中 的 每 个 项 生成 聚合 ， 这 里 需要 用 到 annotate( ) 方法 。annotate( ) 的 
使 用 方法 和 aggregate( ) 的 使 用 方法 相同 ， 每 个 参数 都 描述 了 要 计算 的 聚合 。 例 如 ， 下 面 的 
代码 统计 每 个 品类 商品 的 总 数 : 


>>> from django.db.models import Count 
>>> q = Category.objects.annotate (Count ('products')) 


数据 库 事务 是 将 在 数据 库 上 的 许多 操作 (如 读 取 数 据 库 对 象 、 写 入 、 获 取 锁 ) 封装 
成 一 个 工作 单元 ， 在 这 个 工作 单元 执行 的 过 程 中 ， 所 有 操作 要 么 都 成 功 ， 要 么 都 失败 。 数 
据 库 系 统 中 的 事务 必须 保持 原子 性 、 一 致 性 、 隔 离 性 和 持久 性 ， 也 就 是 我 们 经 常 听 到 的 
ACID。 了 解 和 使 用 事务 对 于 网 站 的 开发 是 非常 重要 的 ，Diango 提供 了 一 些 控制 数据 库 事务 
管理 方式 的 方法 。 


3.3.1 事务 管理 


Django 默认 的 模式 是 自动 提交 。 除 非 事务 处 于 活动 状态 (事务 正在 执行 )， 否 则 每 个 
查询 都 会 立即 提交 到 数据 库 。Diango 使 用 事务 和 保存 点 来 保证 需要 多 个 查询 的 ORM 操作 
的 完整 性 ， 尤 其 是 delete( ) 方法 和 update( ) 方法 。 

在 处 理 Web 事务 时 ， 一 个 常用 的 方法 是 将 每 个 请 求 包装 在 事务 中 。 可 以 在 数据 库 的 配 
置 中 设置 ATOMIC_REQUESTS 为 True 来 开启 这 个 功能 。 这 个 功能 的 工作 流程 如 下 : 在 调 
用 视图 函数 之 前 ,， Django 启动 一 个 事务 。 如 果 生 成 的 响应 没有 问题 ， 则 Django 会 提交 事务 ; 
如 果 视 图 函数 抛 出 了 异常 ， 则 Django 就 回 滚 这 个 事务 。 

也 可 以 使 用 atmoic( ) 上 下 文 管理 器 ， 在 视图 函数 中 使 用 保存 点 执行 子 事务 。 在 视图 函 
数 结束 时 ， 提 交 所 有 更 改 或 不 提交 任何 更 改 。atomic( ) 方法 通常 通过 装饰 一 个 视图 函数 来 
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需要 注意 的 是 ， 视 图 函数 的 执行 是 包含 在 事务 中 的 ， 中 间 件 和 模板 的 泻 染 均 在 事务 外 运 
行 。 即 使 设置 了 AIOMIC REQUESTS， 也 可 以 阻止 在 事务 中 运行 视图 函数 ， 如 下 面 的 代码 ; 


from django.db import transaction 
@transaction.non atomic requests  # 不 在 事务 中 运行 视图 函数 
def my_view (request) 区 

dummy _ function () 


Diango 提供 了 API 来 控制 事务 。atomic( ) 方法 允许 在 代码 中 保证 数据 库 的 原子 性 。 如 
果 代 码 执行 成 功 ， 则 将 更 改 提 交 到 数据 库 ， 如 果 代码 抛 出 了 异常 ， 则 回 滚 更 改 。 代 码 示 
例如 下 : 


from django .db import transaction 
etransaction.atomic  # 作为 装饰 器 使 用 
def viewfunc (request) : 
do _stuff() 
def anotherviewfunc (request) : 
with transaction.atomic() 坦 作为 上 下 文 管理 器 使 用 


do more stuff() 


需要 提醒 的 是 ， 开启 事务 会 增加 数据 库 的 开销 ,应 该 尽 可 能 使 用 短 事务 来 减少 此 开销 。 


3.3.2 ”自动 提交 


在 SQL 标准 中 ， 事 务 通常 通过 把 一 批 更 改 “ 积 荤 ”起 来 然后 使 之 同时 生效 。 在 没有 开 
启 自 动 提交 模式 时 ， 开 发 者 使 用 事务 必须 使 用 语句 BEGIN 或 者 START TRANSACTION 来 
显 式 开启 一 个 事务 ， 最 后 使 用 语句 COMMIT 来 显 式 提交 一 个 事务 。 

对 于 程序 开发 人 员 来 说 ， 这 意味 着 每 次 查询 都 要 加 上 提交 语句 ， 不 是 很 方便 。 考 虑 到 
这 一 点 ， 大 多 数 数据 库 提供 了 自动 提交 模式 。 当 打开 自动 提交 模式 且 没 有 事务 处 于 活动 状 
态 时 , 每 个 SQL 查询 都 会 包含 在 自己 的 事务 中 。 换 句 话说 , 每 个 这 样 的 查询 不 仅 会 启动 事务 ， 
而 且 根据 查询 是 否 成 功 ， 事 务 也 会 自动 提交 或 回 滚 。 

根据 Python 数据 库 API 规范 ， 自 动 提交 模式 应 该 是 默认 禁止 的 。Diango 可 设置 配置 默 
认 禁 止 自动 提交 ， 修 改 settings.py 文件 ， 代 码 如 下 : 


AUTOCOMMIT = False 
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进行 以 上 设置 后 ，Django 将 不 会 启用 自动 提交 功能 。 开 发 者 在 代码 中 需要 明确 提交 每 
个 事务 。 


3.3.3 ”提交 后 执行 操作 


有 些 时 候 在 数据 库 事务 完成 后 需要 执行 其 他 逻辑 ,如 发 送 电子 邮 件 通知 、 清 除 缓存 等 ， 
这 时 就 可 以 使 用 on_commit( ) 方法 来 注册 事务 完成 后 的 回调 。 示 例 代 码 如 下 : 


from django .db import transaction 
def do_something() : 
pass # 发 送 邮件 ,清除 缓存 等 


transaction.on commit (do_something)  # 注册 回调 


on_commit( ) 方法 经 常 和 atomic( ) 方法 一 起 使 用 ， 即 在 atomic( ) 方法 代码 块 中 注册 回 
调 函数 ， 在 事务 成 功 后 调用 回调 。 示 例 代 码 如 下 : 


with transaction.atomic(): # 外 层 保 存 点 ,开启 一 个 新 事务 
transaction.on commit (foo) # 注册 回调 函数 foo 
with transaction.atomic () : # 内 层 保 存 点 


transaction.on commit (bar)  ## 注册 回调 函数 bar 
# 在 外 层 保存 点 结束 后 , foo ( ) 和 bar ( ) 按照 注册 顺序 执行 


在 保存 点 回 深 时 ， 内 层 保存 点 注册 的 回调 将 不 会 调用 。 下 面 的 代码 先 在 外 部 设置 一 个 
保存 点 ， 开 启 一 个 新 事务 ， 然 后 在 内 层 保存 点 范围 内 抛 出 一 个 异常 ， 最 后 外 层 保存 点 注册 
的 回调 将 会 执行 ， 而 内 层 注 册 的 回调 不 会 被 执行 。 


with transaction.atomic() :  # 外 层 保存 点 ,开启 一 个 新 事务 
transaction.on_commit (foo) # 注册 回调 函数 
LEFEV3 
with transaction.atomic() : 间 内 层 保存 点 
transaction.on commit (bar) 间 注册 回调 函数 
raise SomeError() ## 抛 出 异常 
except SomeError: 
pass 


# foo( ) 会 被 调用 ,bar ( ) 不 会 被 调用 
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(了 数据 库 并 发 控制 


在 数据 库 系 统 中 ， 多 用 户 同时 访问 或 更 改 数据 时 ， 可 能 会 引发 冲突 。 为 了 保持 数据 完 
整 性 ， 并 协调 同步 事务 ， 并 发 控制 机 制 是 非常 重要 的 。 本 节 将 介绍 数据 库 并 发 控制 方法 ， 
并 学 习 使 用 Django 来 应 用 这 些 方法 。 


3.4.1 冲突 


假设 进程 A 和 进程 B 从 Product 表 中 读 取 了 同一 行 ， 在 改变 了 数据 后 ， 同 时 把 新 版 本 
写 回 数据 库 ， 这 时 哪个 改动 会 生效 呢 ? 进程 A 生效 ? 进程 B 生效 ? 还 是 两 者 同时 生效 呢 ? 
要 了 解 如 何在 系统 中 实现 并 发 控制 ， 首 先 必须 要 了 解 冲突 ， 我 们 可 以 避免 冲突 ， 或 者 
检测 冲突 然后 解决 它 。 在 现代 软件 的 开发 项 目 中 ， 并 发 控制 和 事务 不 仅仅 在 数据 领域 存在 ， 
而 是 所 有 的 架构 层 都 存在 相关 的 问题 。 因 此 ， 在 数据 库 中 解决 冲突 的 办 法 也 能 够 为 其 他 领 
域 解决 类 似 的 问题 提供 参考 。 
当 两 个 活动 (可 能 是 两 个 事务 ) 尝试 更 改 记录 系统 中 的 相同 实体 时 ， 这 两 个 活动 可 能 
会 发 生 冲 突 。 在 3 种 情况 下 ， 两 个 活动 会 互相 干扰 。 
@ 脏 读 。 活 动 A 从 记录 系统 中 读 取 实 体 ， 然 后 更 新 记录 系统 ， 但 是 不 提交 更 改 (如 更 
改 尚未 完成 )。 这 时 活动 B 读 取 实 体 , 获得 了 未 提交 版 本 的 副本 。 活动 A 回 滚 了 更 改 ， 
将 实体 恢复 到 原始 状态 。 此 时 B 读 到 的 实体 版 本 因为 从 未 提交 ， 因 此 不 被 认为 实际 
存在 ， 这 种 情况 称 为 “ 脏 读 ”。 
@ 不 可 重复 读 。 活 动 A 从 记录 系统 中 读 取 一 个 实体 并 创建 它 的 副本 ， 此 时 B 从 记录 
系统 中 删除 了 这 个 实体 ， 那 么 现在 A 有 一 个 没有 真实 存在 的 实体 的 副本 。 
@ 幻影 读 。A 从 记录 系统 中 检索 实体 集合 ， 然 后 根据 某 种 搜索 条 件 ( 如 “所 有 名 字 里 
面 带 有 凉鞋 的 商品 ” ) 来 记录 它们 的 副本 。 然 后 也 创建 新 的 实体 ， 新 的 实体 正好 满 
足 搜索 条 件 ( 如 将 “红色 凉鞋 ”插入 数据 库 )， 并 保存 到 记录 系统 。 如 果 A 重新 应 
用 搜索 条 件 ， 则 将 会 获得 不 同 的 结果 集 。 
如 果 人 允许 缓存 中 的 过 时 数据 存在 ， 则 并 发 的 用 户 / 线程 越 多 ， 发 生 冲突 的 可 能 性 越 大 。 
现在 我 们 来 看 一 个 更 具体 的 例子 。 假 设 我 们 要 为 电 商 网 站 添加 一 个 类 似 银行 账户 的 功 
能 ， 首 先 要 创建 简单 的 模型 ， 实 现存 款 和 取款 功能 ， 代 码 如 下 : 
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class Account (models.Model): 
user = models.ForeignKey (User) 用 户 
balance = models.IntegerField(default=0) # a 
def deposit (self，amount) : # 存款 
self.balance += amount 
self.save() 
def withdraw (self，amount): 半 取款 
if amount > self.balance: 
raise errors.InsufficientFunds () 
self.balance -= amount 
self.save() 


现在 假设 有 两 个 用 户 对 同一 个 账号 进行 操作 : 

(1) A 获取 账户 余额 100 元 。 

(2) B 获取 账户 余额 100 元 。 

(3) B 提现 30 元 ， 将 账户 余额 更 新 为 70 元 。 

(4) A 存 入 50 元 ， 将 账户 余额 更 新 为 150 元 。 

我 们 期 待 的 正确 结果 是 120 元 ， 但 是 现在 账户 余额 是 150 元 。 出 现 这 种 现象 的 原因 是 
在 B 提现 后 ，A 存储 在 内 存 中 的 数据 已 经 过 时 。 

为 了 防止 这 种 情况 发 生 ， 需 要 确保 正在 处 理 的 资源 在 工作 时 不 会 发 生 改变 。 


3.4.2 ”悲观 锁 


悲观 锁 是 指 实体 在 应 用 中 存储 (通常 是 以 对 象 的 形式 〉 的 整个 生命 周期 内 ， 在 数据 库 
中 被 锁定 。 悲 观 锁 用 于 锁定 限制 或 者 阻止 其 他 用 户 使 用 数据 库 中 的 这 个 实体 。 

写 锁 表 示 锁 的 持 有 者 打算 更 新 实体 ， 在 此 期 间 禁 止 任何 人 读 取 、 更 新 或 者 删除 实体 。 
读 锁 表示 锁 的 持 有 者 不 希望 实体 在 锁定 期 间 被 改变 ， 它 允许 其 他 人 读 取 实 体 ， 但 是 不 能 更 
新 或 删除 该 实体 。 锁 的 范围 可 能 是 整个 数据 库 、 表 、 多 行 或 单行 。 这 些 锁 分 别称 为 数据 库 锁 、 
表 锁 、 页 锁 和 行 锁 。 

翡 观 锁 的 优点 是 易于 实现 ， 并 且 保 证 对 数据 库 的 更 改 是 一 致 和 安全 的 ; 主要 的 缺点 是 
此 方法 不 可 扩展 。 当 系统 有 许多 用 户 时 ， 或 者 当 事 务 涉 及 更 多 数量 的 实体 时 ， 或 者 当 事 务 
长 时 间 存 在 时 ， 不 得 不 等 待 锁 释 放 的 情况 会 大 大 增加 ， 因 此 会 限制 系统 实际 可 以 同时 支持 
的 用 户 数量 。 

悲观 锁 要 求 在 完成 任务 之 前 ， 应 该 完全 锁定 资源 。 当 用 户 在 处 理 一 个 对 和 象 时 ， 没 有 其 
他 人 可 以 获取 对 该 对 象 的 锁定 ， 那 么 就 能 确定 该 对 象 没有 被 更 改 。 在 Django 中， 可 以 使 用 
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select for update 方法 来 实现 翡 观 锁 ， 示 例 代码 如 下 : 


@classmethod 
def deposit (cls, id, amount): # 存款 
with transaction.atomic(): 提 开启 事务 


account = ( 
cls.objects 
.Select for update () 
.get (id=id) 

) 砷 获取 账户 


account .balance += amount # 余额 增加 
account .save() # 保存 更 新 后 的 账户 


return account 


@classmethod 
def withdraw (cls，id，amount): # 提现 
with transaction.atomic() : # 开启 事务 
account = ( 
cls.objects 
.Select for update() 
.get (id=id) 
) ## 获取 账户 


if account.balance < amount: 
raise errors.InsufficentFunds () 
account .balance -= amoun # 余额 减少 
account .save () # 保存 更 新 后 的 账户 
return account 
说 明 : 
@ 使 用 select for update( ) 方法 告诉 数据 库 锁 住 对 象 直到 事务 完成 。 
@ 使 用 atomic( ) 方法 开启 事务 。 
@ 所 有 的 业务 逻辑 块 都 在 事务 内 执行 。 
还 是 使 用 之 前 的 例子 来 看 看 翡 观 锁 是 如 何 工作 的 : 
(1) A 要 求 提现 30 元 。A 获得 锁 ， 此 时 账户 余额 是 100 元 。 
(2) B 要 求 充值 50 元 。B 试图 获取 锁 ， 失 败 ; 等待 锁 释放 。 
(3) A 提现 30 元。 账户 余额 为 70 元 ， 锁 被 释放 。 
(4) B 获取 锁 ， 账 户 余额 为 70 元 。 充 值 完 成 后 ， 余 额 120 元 。 
(5) B 释放 锁 。 
在 上 面 的 代码 中 ，B 等 待 A 释放 锁 。 可 以 在 调用 select for update 时 传 入 nowait=True， 
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让 B 不 再 等 待 ， 而 是 抛 出 DateBaseError 异常 。 


3.4.3 ”乐观 锁 


在 多 用 户 系统 中 ， 冲 突 不 频繁 的 现象 是 很 常见 的 。 在 这 样 的 情况 下 ， 乐 观 锁 会 成 为 可 
行 的 并 发 控制 策略 。 解 决 思路 如 下 : 程序 员 在 知道 发 生 冲 突 概率 很 低 的 情况 下 ， 不 选择 试 
图 阻止 它们 ， 而 是 选择 检测 冲突 ， 并 且 在 冲突 发 生 的 时 候 解决 它 。 

应 用 程序 将 对 象 读 入 内 存 的 过 程 中 ， 对 数据 添加 读 锁 并 在 读 完 后 释放 。 在 该 时 间 点 ， 
可 以 对 该 行进 行 标记 以 便 检 测 冲突 。 然 后 应 用 程序 操作 对 象 ， 在 要 更 新 数据 的 时 候 ， 先 获 
得 对 数据 的 写 锁定 ， 并 读 取 数 据 源 ， 以 便 确 定 是 否 有 冲突 。 在 确定 没有 冲突 的 情况 下 ， 程 
序 更 新 数据 并 释放 锁 。 如 果 检 测 到 冲突 ， 如 数据 在 最 初 被 读 入 内 存 后 被 另 一 个 进程 更 新 ， 
那么 冲突 需要 被 解决 。 

确定 是 否 发 生 冲 突 有 两 种 基本 策略 。 

@ 使 用 唯一 标识 符 标 记 源 数 据 。 源 数据 在 每 次 更 新 时 都 会 被 唯一 标识 。 在 更 新 的 时 候 

检查 标识 符 ， 如 果 其 和 最 初 的 值 不 同 ， 那 么 说 明 数 据 源 被 改 了 。 

@ 保留 源 数据 的 副本 。 在 更 新 操作 时 检索 源 数 据 ， 并 与 最 初 检索 的 值 进行 比较 。 如 果 

值 不 一 样 ， 那 么 说 明 发 生 了 冲突 。 

唯一 标识 符 有 几 种 不 同 的 类 型 。 

@ 日 期 时 间 改 (这 个 值 由 数据 库 服务 器 来 分 配 ， 因 为 不 能 期 望 所 有 计算 机 的 时 钟 都 

同步 ) 。 

@ 增 量 计数 器 。 

@ 用 户 ID (每 个 人 都 有 唯一 ID， 并 且 只 登录 一 台 机 器 ， 并 且 应 用 程序 确定 在 内 存 中 

只 存在 一 个 对 象 的 副本 时 ， 这 种 方法 才 有 效 ) 。 
@ 由 全 局 唯一 代理 键 生成 器 生成 的 值 。 
还 是 以 上 面 的 例子 为 例 ， 首 先 在 模型 上 添加 字段 来 跟踪 对 象 所 做 的 更 改 ， 代 码 如 下 : 


version = models.IntegerField (default=0) 
然后 更 新 对 象 ， 代 码 如 下 : 


def deposit (self，id，amount) : # 存款 
updated = RARccount .objects .filter( 
id=self.id, 
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version=self .version, 

) .update ( 
balance=balance + amount， 
version=self.version + 1, 


) “# 首先 获取 对 象 , 然 后 更 新 数据 和 版 本 
return updated > 0 
def withdraw (self，id，amount):  # 提现 
if self.balance < amount: 
raise errors.InsufficentFunds () 


updated = Account.objects.filter( 
id=self.id, 
version=self.version, 

) .update ( 
balance=balance - amount, 
version=self.version + 1, 


) ”# 首先 获取 对 象 , 然后 更 新 数据 和 版 本 
return updated > 0 
说 明 ， 
(1) 直接 操作 对 象 。 
(2) 约定 每 次 操作 对 象 ， 版 本 号 自 增 。 
(3) 只 有 在 版 本 号 没有 改变 的 情况 下 才 执 行 update( ) 方法 。 如 果 对 象 没有 更 新 ， 那 么 
改变 它 ， 如 果 对 象 已 经 改变 ， 那 么 filter( ) 将 不 会 返回 得 到 任何 结果 。 
(4) Django 会 返回 被 更 新 的 行 的 数量 。 如 果 updated 的 值 是 0， 说 明 更 新 失败 了 。 
在 我 们 的 场景 中 ， 乐 观 锁 的 工作 过 程 如 下 : 
(1) A 获取 账户 ， 余 额 是 100 元 ， 版 本 是 0。 
(2) B 获取 账户 ， 余 额 是 100 元 ， 版 本 是 0。 
(3) B 要 求 提现 30 元 ， 成 功 。 余 额 是 70 元 ， 版 本 是 1。 
(4) A 要 求 充值 50 元 。 版 本 为 0 的 记录 已 不 存在 ， 充 值 失败 。 


3.4.4 ”解决 冲突 


在 解决 冲突 的 时 候 有 5 种 基本 策略 : 
@ 放弃 。 

@ 展示 问题 让 用 户 决定 。 

@ 合并 改动 。 

@ 记录 冲突 让 后 来 的 人 决定 。 
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@ 无 视 冲突 ， 直 接 履 盖 。 

知道 冲突 的 粒度 也 很 重要 。 假 设 两 个 人 操作 同一 个 Product 实体 的 副本 ， 一 个 人 更 新 了 
名 字 ， 另 一 个 人 更 新 了 创建 时 间 。 两 个 人 更 新 的 是 同一 个 实体 的 不 同 粒度 的 数据 ， 这 样 的 
操作 造成 的 数据 冲突 很 容易 恢复 到 正确 状态 。 

简单 起 见 ， 许 多 项 目 团队 会 选择 单一 的 锁定 策略 并 将 其 应 用 到 所 有 表 。 当 应 用 程序 中 
的 所 有 表 或 至 少 大 多 数 表 具有 相同 的 访问 特性 时 ， 这 个 方法 是 很 有 效 的 。 然 而 ， 对 于 更 复 
杂 的 应 用 程序 ， 可 能 需要 基于 各 个 表 的 访问 特性 实现 几 个 锁定 策略 。 按 照 不 同 的 场景 ， 可 
以 选择 不 同 的 策略 ， 如 表 3.1 所 示 。 

表 3.1 不 同 策略 的 应 用 


推荐 的 策略 
sy > 昌 乐观 锁 (第 一 选择 ) 
顾客 二 全 (第 一 一 选择 ) 


访问 日 志 
日 志 账户 历史 过 度 乐观 锁 
事务 记录 


查找 /引用 通常 只 读 ) 付款 方式 过 度 乐观 锁 


的 罗 数据 库 扩展 


数据 库 系 统 无 疑 是 现代 Web 系统 的 核心 组 件 。 无 法 想象 在 数据 库 停止 工作 或 者 查询 极 
端 缓慢 的 情况 下 ， 业 务 系统 还 能 够 正常 运行 ， 保 障 数据 库 系统 的 高 可 用 性 和 高 性 能 是 非常 
重要 的 。 在 业务 飞速 发 展 的 场景 下 ， 单 点 的 数据 库 系统 往往 会 出 现 瓶 颈 ， 这 时 需要 扩展 数 
据 库 系统 来 适应 业务 的 发 展 。 本 节 将 介绍 扩展 数据 库 比 较 常用 的 方法 和 如 何在 Django 中 应 
用 这 些 方法 。 


3.5.1 扩展 方法 
简单 地 说 ， 扩 展 就 是 让 数据 库 系 统 能 够 处 理 更 多 的 流量 和 更 多 的 读 写 查询 。 主 流 的 扩 


展 方法 有 纵向 扩展 和 横向 扩展 。 
纵向 扩展 采用 的 是 增强 单个 数据 库 服务 能 力 的 方法 ， 如 增加 CPU， 增 加 内 存 和 增加 存 
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储 空间 ， 或 者 购买 更 为 强大 的 服务 器 。 这 个 方法 的 主要 优点 是 简单 和 直观 ， 应 用 层 不 需要 
做 适 配 ， 缺 点 主要 在 于 硬件 的 扩容 有 上 限 ， 成 本 很 高 ， 升 级 困难 。 
横向 扩展 采用 的 是 将 多 个 数据 库 服务 组 合 起 来 的 方法 。 和 纵向 扩展 对 比 起 来 ， 这 个 方 
法 的 可 用 性 更 高 ， 易 于 升级 ， 同 时 成 本 更 低 ; 同时 对 技术 要 求 较 高 ， 需 要 应 用 层 做 调整 。 
本 节 将 主要 讨论 几 种 横向 扩展 的 方法 。 


3.5.2” 读 写 分 离 


读 写 分 离 主要 用 到 了 MySQL 的 复制 功能 。 

MySQL 的 复制 功能 允许 将 来 自 一 个 MySQL 数据 库 服务 器 的 数据 自动 复制 到 一 个 或 多 
个 MySQL 数据 库 服 务 器 ， 这 是 MySQL 服务 高 可 用 的 一 种 策略 。 这 种 策略 增加 了 宛 余 ， 当 
一 台数 据 库 服 务 宕 机 后 ， 能 通过 调整 男 外 一 台 从 库 来 以 最 快 的 速度 恢复 服务 。 

由 于 主 从 复制 是 单 向 的 (从 主 服务 器 到 从 服务 器 )， 因 此 只 有 主 数据 库 用 于 写 操作 ， 而 
读 操作 可 以 在 多 个 从 数据 库 上 进行 。 也 就 是 说 ,如果 使 用 主 从 复制 作为 横向 扩展 解决 方案 ， 
则 至 少 要 定义 两 个 数据 源 ， 一 个 用 于 写 操作 ， 另 一 个 用 于 读 操作 。 

要 使 复制 功能 正常 工作 ， 首 先 主 服务 器 需要 将 复制 事件 写 入 日 志 ， 一 般 称 这 个 日 志 
Binlog。 每 当 从 服务 器 连接 到 主 服务 器 时 ， 主 服务 器 都 会 为 连接 创建 新 线程 ， 然 后 执行 从 服 
务 器 对 它 的 请 求 。 大 多 数 请 求 会 是 将 Binlog 传 给 从 服务 器 和 通知 从 服务 器 有 新 的 Binlog 写 入 。 

从 服务 器 会 起 两 个 线程 来 处 理 复 制 。 一 个 称 为 IO 线程 。 这 个 线程 连接 到 主 服务 器 ， 
从 主机 读 取 二 进 制 日 志 事件 ， 并 将 它们 复制 到 本 地 的 日 志文 件 中 ,这 个 日 志 称 为 中 继 日 志 。 
另 一 个 称 为 SQL 线程 。 这 个 线程 从 本 地 的 中 继 日 志 中 读 取 事件 ， 然 后 尽快 在 本 地 执行 它们 。 
MySQL 主 从 服务 器 工作 过 程 如 图 3.2 所 示 。 


1. 连 接 主 服务 器 


主 服务 器 ”<0 和 程 请 求 数据 从 服务 器 | 


3. 发 送 Binlog 不 


SQL 
线程 


执行 
, 


3.2 MySQL 主 从 服务 器 工作 过 程 


压 和 
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通过 读 和 写 分 别 请 求 不 同 的 数据 库 服 务 ， 可 以 有 效 地 降低 单个 MySQL 服务 的 负载 ， 
从 而 提高 系统 整体 的 可 用 性 。 
在 Django 中 应 用 读 写 分 离 的 过 程 如 图 3.3 所 示 。 


Django 应 用 


3.3 在 Diango 中 应 用 读 写 分 离 的 过 程 


Django 提供 的 多 数据 库 请 求 路 由 可 以 用 来 实现 读 写 分 离 。 首 先 需要 配置 多 个 数据 库 服 
务 ， 修 改 settings.py 中 的 DATABASES 列表 ， 示 例 代码 如 下 : 


DATABASES = { 

"default': {  ”# 默认 数据 库 , 主 数据 库 
'NAME': 'multidb', 
'ENGINE': 'django.db.backends.mysql', 
'USER': "some user'， # 数据 库 账号 
"PASSWORD' : "some password'， ## 数据 库 密码 
"HOST' : "master host _ip'， # 数据 库 IP 

Er 

'slave': { 间 从 数据 库 
'NAME': "multidb'， 
"ENGINE' : 'django .db.backends .mysql'， 
"USER' : "some user'， 才 数据 库 账号 
"PASSWORD' : "some password'， 间 数据 库 密码 
"HOST' : "slave_host ip' # 数据 库 IP 


} 


接 下 来 设置 数据 库 路 由 ， 我 们 将 写 操作 应 用 到 主 数据 库 ， 将 读 操作 应 用 到 从 数据 库 ， 
示例 代码 如 下 : 


class DefaultRouter: 
def db for read(self, model, **hints):# 读 从 数据 库 
return 'slave"' 
def db for write(self, model, **hints): # 写 主 数据 库 
return "default" 


然后 修改 settingspy， 加 上 : 


DATABASE ROUTERS = ['path.to.DefaultRouter'] 


当 有 多 个 从 数据 库 可 以 读 取 时 ， 要 实现 读 操作 的 负载 均衡 ， 可 以 

(1) 创建 DNS 记录 (一 般 是 内 网 DNS)， 用 一 个 域名 对 应 多 个 从 数据 库 的 全， 然后 
在 slave 配置 的 HOST 选项 填 入 这 个 域名 。 

(2) 在 应 用 中 按 一 定 的 策略 进行 选择 ， 如 随机 选择 。 示 例 代 码 如 下 


import random 
class RandomRouter: 
def db for read(self, model, **#hints): 
return random.choice(['replical'，'replica2']) # 随机 选 一 个 从 数据 库 


MySQL 的 主 从 复制 步骤 中 有 网 络 请 求 ， 由 于 网 络 抖动 等 原因 ， 从 数据 库 中 的 数据 可 能 
更 新 得 不 及 时 ， 如 果 在 执行 读 操作 时 对 数据 的 实时 性 有 要 求 ， 那 么 就 只 能 读 主 数据 库 了 。 
Django 的 using 关键 字 用 于 选择 指定 的 数据 库 ， 示 例 代码 如 下 : 


>>> Product.objects.all() # 按照 前 面 的 配置 ,这 个 会 读 从 数据 库 
>>> Product.objects.using('default') .all() # 指定 读 取 主 数据 库 


3.5.3 ”垂直 分 库 


值得 注意 的 是 ， 只 有 在 处 理 大 型 数据 集 时 ， 分 库 / 分 表 才 有 意义 。 如 果 数 据 的 行 数 少 
于 一 百 万 或 只 有 数 千 条 记录 ， 分 库 /分 表 除了 增加 系统 复杂 性 外 ， 没 有 任何 意义 。 

比较 常见 的 一 种 做 法 是 将 不 同 的 模块 放 在 不 同 的 数据 库 中 。 在 我 们 前 面 的 电 商 例子 中 ， 
可 以 将 用 户 、 商 品 、 订 单数 据 分 别 放 在 不 同 的 数据 库 中 ， 如 图 3.4 所 示 。 
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ET 


图 3.4 将 单个 数据 库 拆 成 多 个 


同 读 写 分 离 一 样 ，Diango 可 以 通过 路 由 将 不 同 模块 的 请 求 转 到 不 同 的 数据 库 中 。 首 先 
在 settings.py 中 配置 多 个 数据 库 ， 代 码 如 下 : 


DATABASES = { 
"defadlt fy 
"auth db': { 
'NAME': "auth db', 
'ENGINE': 'django.db.backends.mysql', 
}, 
"Product_ db': { 
'NAME': 'product db', 
'ENGINE': 'django.db.backends.mysql', 
}, 
"order db': { 
'NAME': "order db', 
'ENGINE': 'django.db.backends.mysql', 


} 


接 下 来 配置 路 由 类 ， 在 Django 实际 使 用 调用 路 由 类 的 方法 进行 路 由 时 ， 会 传 入 使 用 的 
模型 ， 我 们 根据 模型 的 不 同 请 求 路 由 到 不 同 的 数据 库 ， 以 读 操作 为 例 ， 代 码 如 下 : 


class MultiDatabaseRouter: 
def db for read(self, model, **hints): 
if model == User: ”<# 请 求 用 户 数据 库 
return ‘auth db' 
elif model == Product: # 请 求 商品 数据 库 
return "product db" 
elif model == Order: # 请 求 订单 数据 库 


return "order db' 
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else: 
return "default" 


接 下 来 修改 settings.py: 


DATABASE ROUTERS = ["'path.to. MultiDatabaseRouter'] 


同样 地 ， 也 可 以 使 用 using 关键 字 使 Django 访问 不 同 的 数据 库 。 
需要 说 明 的 是 ， 将 单个 数据 库 实例 拆 分 为 多 个 后 ， 之 前 单 库 中 能 用 到 的 SQL join 一 般 
无 法 继续 使 用 。 如 果 可 以 调整 垂直 分 库 的 设计 ， 则 优先 考虑 在 设计 上 解决 这 个 问题 。 如 果 
不 行 ， 则 一 般 有 下 面 的 两 个 实践 。 
@ 全 局 表 。 这 些 表 往 往 是 所 有 模块 都 会 用 到 的 ， 如 “字典 表 ”。 在 这 种 情况 下 ， 可 以 
在 所 有 的 数据 库 中 都 设置 一 份 这 样 的 全 局 数据 。 
@ 字段 宛 余 。 这 个 方法 一 般 用 来 避免 join 查询 ， 在 这 里 也 可 以 使 用 。 例如， 购物 篮 数 
据 中 除了 放 用 户 的 ID， 还 放置 用 户 名 字符 串 。 在 多 数据 库 的 情况 下 ， 采 用 这 个 方 
法 可 能 会 遇 到 数据 不 一 致 的 情况 ， 需 要 根据 业务 定期 做 检查 。 


3.5.4 ”水平 扩展 


随 着 业务 的 增长 , 有 可 能 会 出 现 单个 数据 表 , 或 者 单个 数据 库 无 法 存 下 业务 数据 的 现象 。 
例如 ， 用 户 数量 达到 了 一 亿 ， 或 者 新 增订 单数 量 每 天 超过 三 百 万 。 在 这 种 情况 下 ， MySQL 
单个 数据 表 或 者 单个 数据 库 就 无 法 容纳 全 部 的 用 户 数据 库 和 订单 数据 了 。 

在 部 分 达到 了 这 个 业务 规模 的 企业 中 ， 对 数据 进行 分 片 是 解决 这 个 问题 常用 的 方法 之 
一 。 这 种 实践 将 数据 库 中 的 数据 进行 水 平分 区 ， 每 个 单独 的 分 区 称 为 分 片 。 每 个 分 片 都 保 
存在 单独 的 数据 库 实例 上 ， 以 分 散 负 载 。 水 平分 片 如 图 3.5 所 示 。 
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水 平分 区 方法 有 许多 的 优点 ， 主 要 如 下 : 
@ 由 于 数据 表 被 分 割 并 分 布 到 多 个 数据 库 服务 器 中 ， 因 此 数据 库 中 的 表 的 总 行 数 减少 
了 ， 索 引 的 大 小 也 就 减少 了 ， 从 而 提升 查询 性 能 。 
@ 数据 库 分 片 可 以 放 在 单独 硬件 上 ， 多 个 分 片 可 以 放 在 多 台 机 器 上 ， 这 样 会 大 幅 提高 
性 能 。 
不 过 在 实践 中 ， 水 平 扩展 数据 是 很 困难 的 。 实 现 的 方法 和 使 用 的 数据 库 类 型 相关 ， 也 
和 数据 本 身 的 特点 相关 。 
分 片 会 给 应 用 程序 增加 额外 的 复杂 度 ， 同 时 增加 的 机 器 也 会 增加 运 维 的 复杂 度 。 在 决 
定 采用 这 个 策略 时 ， 要 慎重 考虑 。 
常见 的 分 片 方法 有 算法 分 片 和 动态 分 片 。 算 法 分 片 即 数据 通过 某 种 算法 写 入 不 同 的 分 
片 , 在 这 种 策略 下 , 客户 端 可 以 在 没有 其 他 帮助 的 情况 下 确定 数据 库 分 区 。 采 用 动态 分 片 时 ， 
客户 端 需要 先 读 其 他 存储 ， 以 获取 分 片 信息 。 


3.5.5 ”算法 分 片 


算法 分 片 比较 简单 的 一 个 例子 是 使 用 取 模 算法 ， 例 如 ， 使 用 数据 的 ID 字段 ， 对 3 进行 
取 模 运算 , 这 样 就 能 知道 连接 哪个 数据 库 。 这 种 做 法 的 思想 是 将 数据 分 成 3 份 存 储 , 如 图 3.6 


所 示 。 


[CC CC] 


图 3.6 取 模 算法 分 片 


考虑 到 分 片 的 数量 已 经 确定 ， 在 实现 的 时 候 可 以 将 所 有 的 分 片 模型 写 下 来 。 在 读 写 数 
据 库 的 时 候 确 认 模型 ， 示 例 代 码 如 下 : 
# product/models .py 文件 


class ProductShard0 (Model) : 
nt # 取 模 结果 为 0 的 分 片 
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class Meta: 
db table = 'product' # 表 名 
class ProductShardl (Model): 
Se # 取 模 结果 为 1 的 分 片 
class Meta: 
db table = 'product" # 表 名 
class Productshard2 (Model): 
i # 取 模 结果 为 2 的 分 片 
class Meta: 
db table = "product'" # 表 名 
# settings.py 文 件 
DATABASES = { 


NAG EGE 更 # 默认 的 数据 库 配 置 

productishardOn. {ee py # 分 片 0 的 数据 库 配 置 
"Broduc Eshardl 竹下 这 # 分 片 1 的 数据 库 配置 
IEEoduectishard20 1 Re # 分 片 2 的 数据 库 配 置 


} 


按照 设计 ， 我 们 对 产品 数据 的 ID 取 模 后 将 数据 划分 到 不 同 的 数据 库 中 。 对 3 取 模 后 的 
结果 始终 只 有 0、1、2。 这 里 我 们 根据 计算 的 结果 划分 模型 ， 分 别 取 名 为 ProductShard0、 
ProductShard1、ProductShard2， 分 别 代表 了 不 同 数据 库 中 的 Product 表 。 为 了 方便 管理 ， 这 
3 个 表 都 命名 为 product， 通 过 Meta 类 的 db_table 来 设置 表 名 。 

同时 还 需要 配置 3 个 数据 库 的 连接 信息 ， 在 settings.py 中 的 DATABASES 配置 ， 加 上 
3 个 分 片 的 数据 库 信 息 ， 在 3.1 节 已 经 讲解 过 相关 的 内 容 ， 这 里 暂时 省 略 。 

现在 我 们 要 让 Django 将 模型 和 数据 库 联系 起 来 ， 实 现代 码 查询 需要 编写 路 由 类 ， 示 例 
代码 如 下 : 


# product/db_routers.py 文 件 
class ProductRouter (object): 
def db for read(self, model, **hints): # 配置 读 操 作 
if model 一 ProductShard0: 。”## 如 果 使 用 的 是 ProductShard0 (使 用 第 0 个 数据 库 ) 
return 'product shard0' 
elif model 一 ProductShard1: # 如 果 使 用 的 是 ProductShardl (使 用 第 1 个 数据 库 ) 
return "product shardl' 
elif model 一 ProductShard2: # 如 果 使 用 的 是 ProductShard2 (使 用 第 2 个 数据 库 ) 
return "product_ shard2" 
elses 
return 'default' # 默认 使 用 default 配 置 
def db for writel(self, model, **hints): 


# settings.py 文 件 
DATABASE ROUTERS = ['"'product.db routers.ProductRouter'] 
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在 业务 代码 中 ， 需 要 根据 产品 ID 来 确定 使 用 哪个 模型 ， 确 定 模型 后 ，Dijango 会 自动 
将 请 求 导向 正确 的 数据 库 。 示 例 代码 如 下 : 


# product/views .py 文件 
def get product detail (request, product id) : 
mod = product id $ 3 # 对 product id 进行 取 模 运算 
if mod == 0: 
product model = ProductShard0 # 选择 分 片 0 
elif mod == 1: 
Product model = ProductShard # 选择 分 片 1 
elif mod == 2: 
product model = ProductShard2 # 选择 分 片 2 
else: 
raise ArithmeticError # 抛 出 算术 异常 
product detail = product model.get (pk=product id) 


类 似 地 ， 也 可 以 使 用 using 关键 字 来 完成 分 片 功能 ， 这 部 分 留 给 读者 练习 。 

通常 来 说 , 使 用 MySQL 对 数据 进行 分 片 , 应 用 程序 很 难 做 到 完全 无 感知 。 在 具体 实现 时 ， 
会 对 业务 代码 进行 一 些 调整 以 找到 正确 的 数据 源 。 业 务 开发 者 希望 调用 统一 的 API 来 操作 
数据 库 而 不 用 考虑 数据 库 的 实际 部 署 状况 ， 这 依赖 于 数据 库 中 间 件 服务 ， 我 们 会 在 后 面 章 
节 谈 到 这 个 话题 。 


3.5.6 ”动态 分 片 


在 动态 分 片 中 ， 需 要 额外 的 定位 服务 来 寻找 数据 源 的 位 置 。 这 种 定位 服务 有 多 种 方式 
可 以 实现 。 如 果 分 区 的 数量 较 少 ， 则 可 以 为 每 一 个 分 区 指定 数据 源 ， 如 果 分 区 数量 分 多 ， 
则 应 该 为 某 个 范围 的 分 区 指定 数据 源 。 动 态 分 片 如 图 3.7 所 示 。 


分 区 范围 | ”数据 源 全 信和 
[1, 10] 0 HL | 
[11, 15] FE 上 一 
[16, 17] 和 | WE 


第 3 章 Django 和 数据 库 一 61 


在 客户 端 读 写 数据 前 ， 需 要 先 定 位 到 数据 的 位 置 ， 然 后 进行 操作 。 动 态 分 片 使 得 数据 
的 分 布 更 有 弹性 。 不 过 这 种 策略 实现 起 来 很 困难 ， 会 遇 到 客户 端 和 定位 服务 数据 不 一 致 、 
定位 数据 更 新 、 定 位 服务 单 点 故障 等 问题 。 在 决定 采用 动态 分 区 前 ， 一 定 要 切合 业务 ， 考 
虑 到 各 种 情况 。 

试想 一 下 ， 定 位 服务 发 生 了 错误 ， 导 致 应 用 从 错误 的 数据 源 中 获取 了 数据 ， 这 对 业务 
的 影响 将 是 灾难 性 的 。 例 如 ， 小 明 请 求 自 己 账户 余额 ， 却 拿 到 了 小 红 的 账户 余额 数据 ; 小 
刚 想 买 1000 元 的 电子 设备 ， 花 的 却 是 小 强 的 钱 。 这 种 后 果 对 于 企业 来 说 是 不 可 接受 的 ， 
此 在 构建 定位 服务 时 往往 选择 高 一 致 性 的 解决 方案 。 

定位 服务 往往 会 用 到 共识 算法 和 同步 复制 技术 存储 数据 。 在 大 多 数 情况 下 ， 定 位 的 数 
据 是 很 小 的 ， 因 此 计算 成 本 很 低 。 有 一 些 数据 库 已 经 有 了 这 方面 的 成 熟 方 案 。 

MongoDB 就 是 这 样 一 个 流行 的 数据 库 。 在 MongoDB 中 , ConfigServer 存储 分 片 的 信息 ， 
mongos 执行 查询 路 由 。 集 群 内 存在 多 个 ConfigServer， 多 个 ConfigServer 之 间 通 过 同步 复 
制 来 确保 一 致 性 。 当 一 台 ConfigServer 丢失 见 余 时 ， 它 会 进入 只 读 状 态 。MongoDB 的 工作 
过 程 如 图 3.8 所 示 。 


ConfigServerl 
(配置 服务 器 1) 


分 片 1 分 片 2 分 片 3 
ConfigServer2 
(配置 服务 器 2) 


mongos 
数据 路 由 
ConfigServer3 
(配置 服务 器 3) 


图 3.8 MongoDB 的 工作 过 程 


图 3.8 中 涉及 3 个 组 件 : 分 片 、 配 置 服务 和 路 由 服务 。 
分 片 用 于 存储 数据 ， 我 们 将 数据 分 为 3 片 ， 它 们 提供 了 高 可 用 性 和 数据 一 致 性 。 在 生 
产 环境 中 ， 每 个 分 片 都 是 一 个 单独 的 副本 集 。 
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配置 服务 用 于 存储 集群 的 元 数据 ， 这 些 数据 包含 集群 数据 集 到 分 片 的 映射 。 数 据 路 由 
服务 使 用 此 元 数据 将 操作 定位 到 特定 分 片 。 在 生产 环境 中 为 了 保证 高 可 用 性 ， 往 往 会 配置 
3 台 ConfigServer。 

mongos 服务 用 于 响应 客户 端的 请 求 并 对 分 片 直 接 操作 ， 最 后 将 结果 返回 给 客户 端 。 一 
般 情况 下 ，mongos 也 要 部 署 多 台 以 保证 高 可 用 性 ， 不 过 为 了 让 示意 图 更 加 简单 ， 图 3.8 中 
只 涉及 一 个 mongos 服务 。 

实现 并 维护 动态 分 片 是 一 件 非常 困难 的 事情 。 作 出 的 决策 和 实际 业务 数据 是 紧密 关联 
的 ， 并 没有 一 个 通用 的 方案 。 要 想 详细 地 论证 这 个 话题 ， 需 要 较 多 的 篇 幅 来 讨论 ， 因 此 这 
里 只 提供 一 个 大 致 的 思路 和 工业 界 的 实现 例子 ， 具 体 实 践 需要 读者 自己 探索 。 


3.5.7 全 局 ID 


在 开发 Web 应 用 时 ， 为 资源 生成 一 个 唯一 标识 符 是 非常 重要 的 ， 如 用 户 的 ID， 这 个 标 
识 符 能 帮助 我 们 在 系统 中 定位 某 一 个 资源 。 在 使 用 单 实例 的 MySQL 时 ， 可 以 使 用 自 增 的 
ID 作为 主键 。 

但 是 在 数据 分 片 的 情况 下 ， 每 个 数据 库 表 都 有 与 其 他 表 隔 离 的 自 增 ID， 如 果 继 续 使 用 
自 增 ID， 就 可 能 在 查询 中 出 现 问 题 。 例 如 ， 分 片 1 和 分 片 2 的 商品 表 中 都 存在 ID 为 955 
的 数据 ， 那 么 查找 ID 为 955 的 数据 时 ， 到 底 应 该 以 哪 一 条 数据 为 准 呢 ? 

在 数据 分 片 的 情况 下 ， 想 要 准确 定位 到 某 一 条 数据 ， 就 需要 为 数据 生成 一 个 全 局 唯一 
的 标志 (ID) 。 现 在 流行 的 算法 是 Twitter 公司 的 开源 算法 一 一 Snowflake 算法 。 

Snowflake 算法 用 于 生成 唯一 的 ID。 使 用 这 个 算法 生成 的 ID 是 唯一 的 64 位 无 符号 整数 ， 
这 个 数 是 基于 时 间 戳 算出 来 的 。 完 整 的 ID 由 时 间 戳 、 机 器 标识 符 和 序列 号 组 成 。 

这 64 位 中 ， 第 1 位 设置 为 0， 后面 41 位 是 当前 时 间 惟 《精确 到 ms) ， 接 下 来 的 10 位 
为 机 器 ID， 最 后 12 位 为 序列 号 。 一 个 简单 的 实现 例子 如 下 : 


import time 

twepoch = 1213243932000 提 2008 年 6 月 12 日 12 点 12 分 12 秒 的 时 间 越 
datacenter id bits = 5 首 数据 中 心 ID 

worker id bits = 5 六 机 器 ID 

sequence id bits = 12 间 序列 号 

max datacenter id = 1 << datacenter id bits ## 数据 中 心 ID 能 取 的 最 大 数值 
max worker id = 1 << worker id bits 井 机 器 ID 能 取 的 最 大 数值 

max sequence id = 1 << sequence id bits # 序列 号 能 取 的 最 大 数值 
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max timestamp = 1 << (64 - datacenter id bits - worker id bits 一 
seqeunce id bits) 
# 时间 改 能 取 的 最 大 值 
def make snowflake (timestamp ms, datacenter id， worker id， seqeunce id, 
twepoch=twepoch): 
# 参考 twitter 的 算法 计算 ID 
sid = ((int(timestamp ms) - twepoch) % max timestamp) 
<< datacenter id bits << worker id bits << sequence id bits 
sid += (datacenter id % max datacenter id) << worker id bits 
<< sequence id bits 
sid += (worker id % max worker id) << sequence id bits 
sid += sequence id % max sequence id 
return sid 


使 用 这 个 算法 可 以 保证 ， 在 一 个 机 房 的 一 台 机 器 上 ， 在 同一 时 间 内 ， 生 成 了 一 个 唯一 
的 ID。 如 果 同 一 时 间 内 生成 了 多 个 ID， 则 可 以 用 了 D 的 最 后 12 位 来 区 分 这 多 个 人 D。 


多 MysQL 实践 
MySQL 是 世界 上 广泛 使 用 的 开源 关系 数据 库 管 理 系统 之 一 。 它 以 高 性 能 、 高 可 靠 性 和 

易 用 性 而 越 来 越 受到 市 场 欢迎 。Dijango 的 数据 层 提供 了 各 种 方法 来 帮助 开发 人 员 充 分 利用 

数据 库 。 

@ 找 出 查询 中 的 性 能 上 瓶颈。 可 以 使 用 QuerySetexplain( ) 方法 来 了 解数 据 库 执行 
QuerySet 的 细节 。 

@ 使 用 索引 。 索 引 不 仅仅 是 主键 或 者 唯一 约束 键 。 如 果菜 字段 经 常 被 查询 到 ， 那 么 绝 
大 多 数 情况 下 应 该 给 它 加 上 索引 。 

@ 计算 上 移 。 数 据 库 的 计算 资源 是 非常 宝贵 的 ， 一般 情况 下 应 该 尽量 将 计算 上 移 到 应 
用 层 。 例 如 ， 少 用 order by( )， 不 推荐 使 用 存储 过 程 。 另 外 ，QuerySet 的 count( ) 
方法 和 exists( ) 方 法 是 非常 快 的 , 如 果 要 得 到 数据 集 的 行 数 或 者 确定 数据 是 否 存 在 ， 
那么 应 该 采用 这 些 方法 。 

@ 使 用 缓存 。MYSQL 服务 器 默认 开启 了 查询 缓存 的 功能 ， 这 是 提升 性 能 的 有 效 方式 
之 一 。 当 一 条 查询 被 执行 很 多 次 时 ， 查 询 结果 会 直接 从 缓存 中 读 取 。 如 果 SQL 中 
包含 某 些 方法 [如 CURDATE( )、NOW()、RAND( ) 等 ]， 则 数据 库 执行 这 条 SQL 
语句 时 不 会 使 用 缓存 ， 因 此 在 使 用 的 时 候 尽 量 避免 使 用 这 些 方法 。 

@ 选择 正确 的 存储 引擎 。 一 般 情 况 下 ， 推 荐 使 用 InnoDB。 
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@ 获取 想 要 的 数据 。 查询 的 数据 越 多 , 查询 的 效率 越 慢 。 因 为 这 会 增加 磁盘 IO 的 时 间 。 
可 以 使 用 QeurySet 的 values( ) 方法 和 values list( ) 方法 指定 想 要 查询 的 字段 。 

@ 设计 ID 字段。 为 每 一 张 表 设 计 一 个 ID 字段 ， 并 设置 为 主键 和 自 增 ID。 这 也 是 
Django 的 默认 行为 。 

@ 批量 操作 。 当 操作 多 个 对 象 时 ， 尽 量 使 用 bulk_create( ) 方法 ， 这 会 减少 SQL 查询 
的 数量 。 

@ 使 用 utf8mb4 编码 。MySQL 的 utf8 是 一 种 专属 的 编码 ， 它 能 够 编码 的 Unicode 字 
符 并 不 多 ; MYSQL 的 utf8mb4 是 真正 的 UTF-8。 

@@ 尽 可 能 一 次 性 获取 想 要 的 数据 。 多 次 访问 数据 库 通常 比 在 一 个 查询 中 检索 所 有 数 
据 的 效率 低 ， 特 别 是 在 循环 执行 查询 时 ， 因 此 当 只 需要 一 个 查询 时 ， 可 能 实际 上 
执行 了 许多 次 数据 库 查询 。 在 这 种 情况 下 使 用 QuerySet 的 select related( ) 方法 和 
prefetch_related() 方法 会 很 有 用 。 


数据 库 是 Web 应 用 的 核心 组 件 ， 这 点 怎么 强调 都 是 不 过 分 的 。 本 章 首先 讲解 了 如 何 使 
用 Django 的 ORM 来 获取 和 更 新 对 象 ， 在 使 用 ORM 的 基础 上 讲解 了 如 何在 Django 中 使 用 
事务 ， 接 下 来 讲解 了 数据 库 并 发 控制 策略 ， 以 及 乐观 锁 和 悲观 锁 在 Diango 的 实现 方式 ， 然 
后 讲解 了 在 数据 库 遇 到 单机 瓶颈 时 的 做 法 和 思路 ; 最 后 讲解 了 当前 流行 数据 库 MySQL 的 
最 佳 实践。 

关于 Web 应 用 的 性 能 ， 只 在 数据 库 层面 优化 往往 是 不 够 的 。 在 构建 高 性 能 的 网 站 时 ， 
我 们 会 用 到 缓存 ， 我 们 将 会 在 后 面 的 章节 学 习 缓 存 相关 的 内 容 。 


可 和 习 


问题 一 : 乐观 锁 和 悲观 锁 有 什么 不 同 ? 
问题 二 : 自动 提交 模式 有 什么 作用 ? Diango 为 什么 默认 开启 自动 提交 模式 ? 
问题 三 : 什么 时 候 会 用 到 QuerySet 的 缓存 ? 什么 时 候 不 会 ? 


在 Web 应 用 的 MVC 结构 中 ， 视 图 一 般 包 含 模板 和 表单 ， 用 来 给 浏览 器 生成 响应 。 在 实际 的 处 
理 过 程 中 ， 视 图 会 根据 请 求 的 参数 从 数据 源 中 找到 数据 ， 并 生成 HTML 文本 或 者 XMLHttpRequest 
响应 返回 给 浏览 器 。 

本 章 涉 及 的 主要 知识 点 : 

@ 编写 视图 : 学 习 使 用 函数 和 类 编写 视图 。 

@ 路 由 配置 : 学 习 使 用 URLConf 对 象 。 

@ 文件 处 理 : 学 习 在 视图 中 编写 上 传 和 下 载 文件 的 代码 。 


URL 是 用 户 访问 网 站 的 起 点 ， 对 于 一 个 想 要 成 功 的 网 站 来 说 ，URL 是 非常 重要 的 一 部 
分 。 如 果 想 要 用 户 被 网 站 吸引 ， 必 须 确保 网 址 足够 简单 、 简 短 且 友好 。Django 框架 对 URL 
的 设计 没有 限制 ， 允 许 开 发 者 根据 需要 设计 URL。 


4.1.1 URL 匹 配 


要 设计 应 用 程序 的 URL， 可 以 创建 URLconf 模块 ， 这 个 模块 用 于 将 URL 路 径 表达 式 

映射 到 Python 函数 。 当 用 户 从 Django 支持 的 站 点 请 求 页 面 时 ， 执 行 顺序 如 下 。 

(1) Django 确定 要 使 用 的 根 URLConf 模块 ， 这 通常 由 ROOT _URLCONF 设置 ， 但 
如 果 传 入 的 HttpRequest 对 象 具 有 urlconf 属性 〈 由 中 间 件 设置 )， 将 使 用 其 替代 ROOT 
URLCONE 设置 。 

(2) Django 加 载 URLConf 模块 ， 并 在 其 中 查找 urlpatterns 变量 。 

(3) Django 按 顺序 遍历 每 个 URL 模式 ， 一 旦 找到 匹配 的 模式 ， 就 停止 遍历 。 

(4) Django 调用 该 模式 映射 的 视图 函数 。 

(5) 如 果 没有 任何 URL 模式 匹配 ， 或 者 在 此 过 程 中 抛 出 异常 ，Django 将 调用 适当 的 
错误 处 理 视图 。 例 如 : 


Django 项 目 开 》 


from .import views # 引入 编写 的 视图 模块 
Urlpatterns = [ 
url(r'categories$'，views.category 1ist)，# 品类 列表 
Url (r'categories/([1-9] [0-9]*)$', views.category detail), # 品类 详情 
] 
分 析 : 
@ 如 果 想 从 URL 捕获 值 ， 则 要 使 用 尖 括 号 。 
@ 捕获 的 值 可 以 包括 转换 器 类 型 。 
@ 对 /categories/2018 的 请 求 会 匹配 到 第 二 条 规则 ，Diango 会 调用 方法 views.category_ 
detail (request，2018 ) 。 
可 以 使 用 命名 的 正则 表达 式 组 来 捕获 URL 并 将 它们 作为 关键 字 参 数 传递 给 视图 。 在 
Python 中 ， 命 名 正则 表达 式 组 的 语法 是 〈?P<name>pattern) ， 其 中 name 是 组 的 名 称 ， 
pattem 是 要 匹配 的 模式 。 下 面 我 们 用 正则 模式 来 改写 上 面 的 例子 : 


from django.conf.urls import url # 导入 OURL 

from . import views ， 井 引入 自 定义 的 视图 模块 

urlpatterns = [ 

url(r'^categories$'，views.category 1ist)，# 品类 列表 
Url (r'^categories/ (?P<category id>[1-9] [0-9]*)$', views.category detail) # 品类 详情 

] 

以 上 代码 实现 的 效果 和 前 面 的 例子 完全 相同 ， 只 有 一 个 细微 的 区 别 : 捕获 的 值 作为 
关键 字 参 数 而 不 是 位 置 参数 传递 给 视图 函数 。 请 求 /categories/2018 将 会 调用 函数 views. 
category_detail (request, categorey 1d=2018) 。 

值得 注意 的 是 ， 无 论 正 则 表达 式 匹 配 什么 类 型 ， 每 个 捕获 的 参数 都 作为 普通 Python 字 
符 串 传递 给 视图 函数 。 

在 Django 2.1 版 本 中 ， 普 通 匹 配 使 用 path( ) 方法 ， 正 则 匹配 使 用 re_path( ) 方法 来 替代 
1.8 版 本 中 的 url( ) 方法 。 在 使 用 url( ) 方法 匹配 的 时 候 需要 注意 Django 的 版 本 。 


4.1.2 ”配置 嵌 套 


urlpattems 可 以 包含 其 他 URLconf 模块 ， 模 块 和 模块 之 间 会 构成 层级 关系 ， 示 例 代码 
如 下 : 


from django.conf.urls import include, url # 引入 include 方 法 和 url 方 法 


urlpatterns = [ 


urll(r'^product/', include('sales.product.urls')), # 商品 
url(r'^customer/', include('sales.customer.urls')), # 顾客 


] 


注意 ， 在 上 面 的 例子 中 ， 人 “$”， 多 了 “/”。 每 当 Dijango 遇 到 
django.confurls.include( ) 方法 时 ， 它 会 删除 与 该 点 匹配 的 URL 部 分 ， 并 将 剩余 的 字符 串 发 
送 到 包含 的 URLconf 以 进行 进 一 Po 

另 一 种 可 能 性 是 include 只 包含 url( ) 实例 的 列表 ， 如 下 面 的 配置 代码 : 


from django.conf.urls import include, url  # 引入 url 方 法 
from sales.shoes import views as shoes views # 鞋 应 用 视图 
from sales.credit import views as credit views # 信贷 应 用 视图 
credit patterns = [ ## 信贷 url 模 式 

url(r'^reports/$', credit views.report) 


] 


urlpatterns = [ 


url(r'^$', shoes views.index), # 首页 
url(r'^help/', include ('sales. help.urls'))，# 帮助 页 面 
url(r'^credit/'，include (credit patterns) )， # 包含 信贷 路 由 配置 


1 


在 上 面 的 例子 中 ， 对 /credit/reports/ 的 请 求 会 被 credit_views.report 视图 函数 处 理 。 采 用 
配置 嵌 套 有 助 于 URL 的 管理 ， 删 除 宛 余 。 


4.1.3 ”反问 解析 URL 


在 Django 项 目 中 ,一 
内 容 中 ， 用 来 导航 。 


见 的 需求 是 获得 最 终 形式 的 URL 字符 串 ， 将 其 嵌入 生成 的 


实现 这 个 效果 最 简单 的 方式 是 在 内 容 中 写 死 URL， 但 这 种 方法 费力 ， 容 易 出 错 又 不 可 
扩展 。 在 文档 中 写 死 业务 URL 会 出 现 文档 过 时 的 问题 。 
Django 提供 了 反 向 解析 URL 的 功能 来 避免 URL 容易 过 时 的 问题 。 除 此 之 外 ， 这 个 功 


能 还 为 开发 提供 了 便捷 ， 


因为 用 户 不 再 遍历 所 有 项 目 源 代码 来 搜索 和 替换 过 时 的 URL。 


要 做 到 反 向 解析 URL， 首 先 要 对 URL 进行 标识 ， 如 为 URL 起 一 个 独一无二 的 名 字 。 
另外 还 需要 知道 正确 的 URL 及 对 应 的 视图 参数 类 型 和 值 。 这 样 ，URLconf 模块 就 有 了 两 个 


作用 : 


@ 根据 用 户 请 求 的 URL， 找 到 正确 的 视图 函数 ， 执 行业 务 遇 辑 。 
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Django 项 目 开 


@ 标识 相应 的 Django 视图 及 传递 给 它 的 参数 ， 获 取 相关 的 URL。 
第 一 个 作用 在 前 面 已 经 学 习 过 了 ， 现 在 来 学 习 第 二 个 作用 。Django 提供 了 用 于 执行 


URL 反 转 的 工具 ， 这 些 工 具 在 不 同 的 层次 中 。 


@ 在 模板 中 ,使 用 URL 模板 标签 。 

@ 在 业务 代码 中 ,使 用 django.core.urlresolvers.reverse( ) 函数 。 

@ 在 处 理 与 Django 模型 实例 相关 URL 的 更 高 级 代码 中 , 使 用 get_absolute url( ) 方法。 
下 面 来 看 一 个 例子 ， 还 是 使 用 之 前 用 过 的 URLconf: 


from django.conf.urls import url # 引入 url( ) 方 法 
from . import views # 引入 自 定义 的 视图 模块 
urlpatterns = [ 
urll(r'categories/(?P<category id>[1-9] [0-9]*)$', views.category_ 
detai1，name='shoes-category-detail')， ## 品类 详情 


] 
在 模板 中 可 以 使 用 URL 标签 ， 带 上 签名 设置 的 名 字 和 人 参数， 就 能 生成 真实 的 连接 。 示 


例 代码 如 下 : 


<a href="{$ Url 'shoes-category-detail' 2018 %}"> 第 2018 号 品类 </a> <!-- 模 
板 使 用 url1--> 

<ul> 

{% for category id in category list %} 

<li><a href="{% Url 'shoes-category-detail' category id $%}"> 品 类 
{{ category id }}</a></1i> <!--url 带 上 参数 --> 

{$$ endfor %} 

</ul> 


在 视图 代码 中 可 以 使 用 reverse( ) 方法 ， 传 入 URLconf 中 定义 的 名 字 和 参数 ， 生 成 实际 


使 用 的 链接 。 示 例 代码 如 下 : 


from django.core.urlresolvers import reverse ## 引入 reverse ( ) 方 法 
from django.http import HttpResponseRedirect # 引入 重 定 向 响应 方法 
def redirect category detail (request): # 将 请 求 重 定向 到 品类 详情 


category id = 2018  ”# 这 里 写 死 品类 id 
return HttpResponseRedirect (reverse('shoes-category-detail', args=(category id) )) 
# 使 用 reverse 方 法 得 到 URL 


如 果 有 一 天 请 求 详情 品类 的 URL 发 生 改变 ， 那 么 只 需要 修改 URLconf 模块 ， 其 他 的 


地 方 不 用 修改 。 
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视图 函数 〈 简 称 视图 ) 是 用 来 处 理 Web 请 求 并 返回 响应 对 象 的 Python 函数 。 返 回 对 象 
可 以 是 包含 网 页 内 容 的 响应 ， 也 可 以 是 重 定向 响应 ， 或 者 其 他 任何 响应 。 视 图 函数 “ 包 库 ” 
着 开发 加 入 的 业务 逻辑 。 只 要 能 被 Python 解释 器 找到 ， 这 些 函 数 可 以 保存 在 任何 地 方 。 按 
照 惯例 ， 可 将 视图 函数 统一 放 在 应 用 或 项 目 目录 下 面 的 views.py 文件 中 。 


4.2.1 视图 函数 


前 面 的 章节 已 经 介绍 过 视图 函数 了 , 我 们 用 一 个 简单 的 视图 函数 来 回顾 一 下 相关 内 容 。 
现在 编写 一 个 返回 “高 跟 鞋 之 家 欢迎 您 ”的 简单 页 面 ， 示 例 代码 如 下 : 

#) =*= Coding: UTEF-8 =*= 

from django.http import HttpResponse # 引入 响应 类 

def hello (request) : # 打招呼 的 视图 函数 


html = "<html><body> 高 跟 鞋 之 家 欢迎 您 </body></html>" # 文本 
return HttpResponse (html) # 返回 响应 


分 析 : 
(1) 声明 文件 的 编码 为 utf8， 这 是 因为 后 面 的 代码 包含 了 中 文 。 
(2) 引入 HttpResponse 包 。 
(3) 定义 一 个 名 为 hello 的 视图 函数 。 每 个 视图 函数 都 会 接受 一 个 HttpRequest 对 象 作 
为 第 一 个 参数 。 
(4) 视图 函数 返回 HttpResponse 对 象 。 每 个 视图 函数 都 应 该 返回 一 个 HttpResponse 
对 象 。 
Django 默认 带 有 一 些 处 理 HITP 错误 的 视图 函数 ， 例 如 : 
@ 视图 函数 django.views.defaultspage_not found, 在 视图 函数 中 抛 出 HITP404 异常 时 ， 
Django 会 加 载 该 函数 来 处 理 404 错误 ( 页 面 不 存在 错误 ) 。 
@ 500 服 务 器 错误 。 如 果 视 图 函数 出 现 异 常 ， 则 Django 会 默认 调用 视图 函数 django. 
views.defaults.server error。 这 个 视图 函数 仅 在 DEBUG 设置 为 True 的 时 候 启用 。 
@ 403 禁止 访问 错误 。 如 果 视 图 函数 抛 出 了 403 异常 ， 则 Django 会 默认 调用 视图 函数 


django.views.defaults.permission denied。 


@ 400 错误 请 求 。 这 个 视图 函数 的 路 径 是 django.views.defaults bad request。 这 个 视图 
函数 也 仅 在 DEBUG 设置 为 True 的 时 候 启用 。 
Django 处 理 错误 的 默认 行为 是 可 以 被 覆盖 的 。 在 URLconf 中 添加 自 定 义 的 处 理 器 即 可 ， 
示例 代码 如 下 : 


# 定义 handler404 覆 盖 page_not found( ) 视 图 


handler404 = 'mysite.views.my custom page not found view' 

# 定义 handler500 覆 盖 server error( ) 视 图 

handler500 = 'mysite.views.my custom error view' 

# 定义 handler403 覆 盖 permission denied( ) 视 图 

handler403 = 'mysite.views.my custom permission denied view' 
# 定义 handler400 覆 盖 bad request ( ) 视图 

handler400 = 'mysite.views.my custom bad request view' 


4.2.2 ”请 求 和 响应 对 象 


Django 通过 请 求 和 响应 对 象 来 传递 系统 状态 。 当 页 面 被 请 求 时 ，Django 会 创建 一 个 包 
含有 关 请 求 元 数据 的 HttpRequest 对 象 ， 然 后 将 这 个 对 象 作为 第 一 个 参数 传 给 视图 函数 。 
一 般 情 况 下 ， 不 要 改变 请 求 对 象 的 属性 。 常 用 的 请 求 对 象 属性 如 下 。 
@ HttpRequest.method 属性 。 该 属性 表示 这 次 请 求 的 HITP 方法 (GET 或 POST) 。 
@ HttpRequestGET 属性 。 该 属性 包含 所 有 HTTP GET 请求 的 参数 ， 这 是 一 个 类 似 于 
字典 类 型 的 对 象 。 
@ HttpRequestPOST 属性 。 该 属性 包含 HITP POST 请 求 的 数据 ， 这 也 是 一 个 类 似 字 
典 类 型 的 对 象 。 
@ HttpRequest.META 属性 。 该 属性 包含 所 有 HTTP 头 的 字典 。 
@ HttpRequest.COOKIES 属性 。 该 属性 包含 所 有 Cookie 的 字典 。 所 有 键 和 值 都 是 字 
符 串 。 
Diango 的 中 间 件 会 为 HttpRequest 对 象 添加 一 些 属 性 ， 有 HttpRequest.session、 
HttpRequest.site、HttpRequest.user。 
Django 会 主动 创建 请 求 对 象 ， 但 是 响应 对 象 需要 开发 者 创建 。 下 面 是 一 个 简单 例子 : 


>>> from django.http import HttpResponse 间 引入 响应 类 
>>> response = HttpResponse ("Here's the text of the Web page.")# 生成 响应 对 象 


响应 对 象 和 字典 对 象 是 非常 相似 的 ， 使 用 方法 也 非常 相似 。 例 如 ， 想 要 设置 响应 头 ， 


第 4 章 视 图 一 71 


可 以 像 操 作 字典 一 样 进行 添加 或 删除 操作 : 


>>> response = HttpResponse()  ## 生成 响应 对 象 

>>> response['Age'] = 120 站 修改 响应 头 

>>> del response['age']  # 删除 刚 添加 的 响应 头 

响应 对 象 比 较 常用 的 属性 如 下 。 

@ HttpResponse.content 属性 : 返回 的 内 容 。 

@ HttpResponse.status_code 属性 : 返回 的 HITP 状态 码 。 


4.2.3 ”模板 响应 对 象 


HttpResponse 对 象 可 返回 已 经 确定 的 内 容 。 每 次 在 返回 响应 之 前 确认 返回 的 内 容 是 
一 件 非 常 麻 烦 的 事 ， 尤 其 是 有 时 候 需 要 在 响应 对 象 被 视图 构造 后 做 一 些 修 改 ， 如 改变 
模板 或 者 放置 一 些 公共 的 数据 在 上 下 文中 。 使 用 TenplateResponse 可 以 解决 以 上 问题 。 
TemplateResponse 对 象 会 保留 视图 提供 的 模板 和 上 下 文 信息 。 实 际 的 泻 染 只 有 在 真正 需要 
的 时 候 才 发 生 ， 一 个 简单 的 示例 如 下 : 


from django.template.response import TemplateResponse # 引入 模板 响应 类 
def blog index (request) : 
return TemplateResponse(request, 'entry list.html', {'entries': 

Entry.objects.all ()}) 

# 传 入 模板 和 上 下 文 

在 TemplateResponse 实例 返回 给 客户 端 之 前 ， 必 须 先进 行 泻 染 。 在 泻 染 过 程 ， 模 板 和 
上 下 文 作为 输入 ， 转 换 为 字 节 流 返回 给 客户 端 。 在 3 种 情况 下 ， 演 染 会 发 生 : 

@ 调用 SimpleTemplateResponse.render ( ) 时 。 

@ response.content 被 显 式 赋值 时 。 

@ 模板 响应 中 间 件 后 ， 但 在 响应 中 间 件 之 前 。 

一 个 TemplateResponse 对 象 只 能 被 泻 染 一 次 。 第 一 次 调用 SimpleTemplateResponse. 
render( ) 方法 会 设置 响应 的 内 容 ， 后 面 再 调用 这 个 方法 不 会 改变 响应 内 容 。 不 过 ， 当 显 式 赋 
值 response.content 时 ， 响应 的 内 容 时 钟 会 发 生 更 改 ， 如 下 面 的 示例 代码 : 


看 创建 一 个 模板 响应 
>>> from django.template.response import TemplateResponse # 引入 模板 响应 类 
>>> 七 = TemplateResponse (request，'"'original.html'，{})  # 生成 模板 响应 对 象 


ET 


>>> 七 .render () 厅 泻 染 模板 
>>> print (t.content) 输出 泻 染 后 的 结果 
Original content 


# 重新 泻 染 不 会 改变 内 容 

>>> 七 template name = "new-html' # 修改 模板 名 
>>> t.render() 重新 泻 染 

>>> print (t-content)  ## 输出 泻 染 后 的 结果 
Original content 


# 对 content 进 行 赋值 会 改变 内 容 

>>> 上 .content = 七 .rendered content # 赋值 
>>> Print (七 .content) 

New content 


前 面 我 们 介绍 了 视图 函数 ， 视 图 函数 可 调用 ， 它 接受 请 求 并 返回 响应 。 在 Django 中 ， 


视图 也 可 以 用 类 来 表示 ， 这 些 类 称 为 视图 类 。 使 用 视图 类 有 利于 代码 的 重用 ， 可 提高 开发 
的 效率 。 同 时 Django 提供 了 一 些 自 带 的 视图 类 ， 可 以 为 自 定义 的 视图 类 做 一 个 参考 。 


4.3.1 基本 用 法 


视图 类 最 简单 的 用 法 是 直接 在 URLconf 中 直接 使 用 常用 的 类 。 例 如 ， 下 面 的 例子 使 用 


框架 自 带 的 TemplateView， 调 用 as_view( ) 方法 ， 并 传 入 自 定义 的 模板 文件 : 


from django.conf.urls import url 
from django.views.generic import TemplateView # 引入 模板 视图 类 
urlpatterns = [ 

urll(r'^about/', TemplateView.as view (template name="about.html") i 
# 参数 表示 模板 名 
] 


为 了 适应 更 多 变 的 需求 ， 可 以 继承 现 有 视图 ， 并 覆盖 属性 来 实现 业务 逻辑 。 示 例 代码 


from django.views.generic import TemplateView 
class AboutView (TemplateView) : # 继承 模板 视图 类 
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template name = "about.html" # 自 定义 的 模板 文件 


相应 地 ，URLconf 也 要 做 修改 ， 将 之 前 的 TemplateView 替换 成 上 面 自 定义 的 
AboutView， 同 样 需要 调用 as_view( ) 方 法。 示例 代码 如 下 : 


from django.conf.urls import url 
from some app.views import AboutView  ## 上 面 示 例 自 定义 的 视图 类 
urlpatterns = [ 
url(r'^about/'，AboutView.as_view())，# 和 上 面 示例 一 样 
] 


4.3.2 ”视图 类 的 优点 


相 比 于 视图 函数 ， 视 图 类 有 一 些 优点 : 

@ 有 利于 代码 重用 。 开 发 者 编写 自己 的 视图 时 ， 可 以 通过 继承 已 有 的 视图 类 来 复 用 基 
类 的 代码 。 

@ 有 利于 提升 代码 的 可 扩展 性 。 基 于 Mixin 来 扩展 ， 新 的 视图 类 包含 更 多 的 功能 。 

@ 代码 结构 更 清晰 。 视 图 类 可 以 使 用 不 同 的 方法 响应 不 同 的 HTTP 请 求 ， 而 使 用 视图 
函数 需要 做 条 件 判 断 。 

as_Vview( ) 方法 会 调用 dispatch( ) 方法 ， 代 码 摘录 如 下 : 


def dispatch (self, request, *args, **kwargs): 
# 根据 HTTP 方 法 寻找 正确 的 处 理 方法 , 找 不 到 返回 方法 不 被 允许 
if request.method.lower() in self.http method names: 
handler = getattr (self, request.method.lower(), self.http method not allowed) 
else: 
handler = self.http method not allowed 
return handler (request, *args, **kwargs) 


Mixin 是 一 种 特殊 的 继承 类 。 在 面向 对 象 编程 语言 中 ， 它 是 一 个 包含 其 他 类 使 用 方法 的 
类 , 而 不 必 是 其 他 类 的 父 类 。Mixin 鼓励 代码 重用 ， 可 用 于 避免 多 继承 可 能 导致 的 继承 歧义 。 
在 视图 类 中 应 用 Mixin 的 示例 代码 如 下 : 


from django.http import JsonResponse 
class JSONResponseMixin (object) : 
# 一 个 用 于 泻 染 JSON 响 应 的 Mixin 
def render to json response(self, context, **response kwargs): 
# 返回 一 个 JSON 响 应 对 象 


return JsonResponse (self.get _data(Ccontext)，**Tresponse_kwargs) 
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def get datal(self, context): 
# 返回 一 个 即将 被 json .dumps ( ) 序列 化 的 对 象 
return context 
这 个 例子 是 极其 简单 的 ， 现 实 场景 的 业务 逻辑 会 比 这 个 复杂 得 多 。 现 在 可 以 在 视图 类 
中 使 用 Mixin 了 ， 示 例 代码 如 下 : 
from django.views.generic import TemplateView # 引入 模板 视图 类 
class JSONView (JSONResponseMixin, TemplateView): 
# 使 用 Mixin 和 模板 视图 类 生成 新 的 视图 类 


def render to response (self, context, **response kwargs): “ 才 调用 Mixin 的 方法 
return self.render to json response(context, **response kwargs) 


如 果 希 望 在 代码 的 不 同类 之 间 重 用 某 些 代码 ， 那 么 Mixin 会 是 一 个 非常 好 的 选择 。 


vw 文件 上 传 


相信 大 家 在 上 网 的 过 程 中 会 遇 到 需要 在 网 站 上 传 文件 的 情况 ， 如 上 传 身份 证 照片 验证 
身份 、 上 传 文档 用 于 共享 等 。 那 么 当 用 户 在 浏览 器 中 选中 文件 ， 并 且 单 击 “ 上 传 ”按钮 后 ， 
后 台 的 服务 器 都 做 了 些 什 么 呢 ? 本 章 将 带领 您 了 解 这 方面 的 内 容 。 


4.4.1 文件 表单 


当 一 个 用 户 在 Django 网 站 上 上 传 文件 时 ， 上 传 的 数据 会 放 在 requestFILES 对 象 中 ， 
这 个 对 象 包含 所 有 上 传 文件 。 这 个 对 象 和 字典 对 象 有 些 相似 ， 键 是 上 传 的 文件 名 ; 值 是 一 
个 UploadedFile 对 象 。 

Django 的 表单 是 支持 上 传 文件 的 。 新 建 一 个 简单 的 表单 ， 代 码 如 下 : 


odinga nt A 

# 这 个 代码 文件 一 般 命名 为 forms .py 

from django import forms  ## 导入 表单 模块 

class UploadFileForm (forms.Form): 
title = forms .CharField (max length=50) # 文件 标题 
file = forms.FileField() # 表单 字段 


一 个 简单 的 上 传 文件 的 视图 函数 〈 这 个 视图 函数 接受 POST 方法 的 请 求 时 处 理 文件 表 
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单 ， 在 接受 GET 方法 的 请 求 时 泻 染 表单 ) 如 下 : 


# -*- coding: utf-8 一 * 一 
from django .http import HttpResponseRedirect 
from django.shortcuts import render to response 
from .forms import UploadFileForm 帮 引入 表单 
def upload file (request): 
if request.method == 'POST': # 只 有 在 POST 方 法 时 FILES 会 有 数据 
form = UploadFileForm(request.POST, request.FILES) 
if form.is valid() : ## 校 验 表单 
do_smething (request.FILES['file']) # 什么 也 不 做 
return HttpResponseRedirect('/success/url1/') 
else: 
form = UploadFileForm() # 生成 表单 对 象 用 于 泻 染 


return render to response('upload.html', {'form': form}) 


在 上 面 的 代码 中 ，POST 方法 中 的 表单 被 初始 化 时 ， 需 要 传 入 request FILES。 对 于 上 
传 的 文件 ， 常 见 的 做 法 是 将 其 保存 在 文件 中 。 示 例 代 码 如 下 : 


def handle uploaded file(f) 
with open('some/file/name.txt', 'wb+') as destination: # 打开 文件 用 于 写 入 
for chunk in f.chunks( ) : # 对 于 比较 大 的 文件 ,调用 f.read( ) 可 能 会 占用 系统 过 多 内 存 


destination.write (chunk) 


4.4.2 ”文件 存储 


默认 情况 下 ，Django 会 在 本 地 保存 文件 ， 文 件 目录 通过 MEDIA ROOT 和 MEDIA_ 
URL 设置 。 在 操作 文件 时 ，Django 使 用 django.core.files.File 对 象 。 这 个 对 象 是 对 Python 
内 置 文件 对 象 的 一 个 简单 封装 ， 并 提供 了 一 些 Django 的 附加 功能 。 

Django 有 一 套 机 制 来 实现 存储 文件 ， 以 及 将 文件 存 到 指定 地 方 。 存 储 的 默认 设置 是 
DEFAULT FILE STORAGE. 

大 多 数 情况 下 ， 代 码 中 使 用 的 是 File 对 象 ，File 对 象 会 将 对 文件 的 操作 委托 给 设置 的 
存储 系统 ， 不 过 存储 系统 也 可 以 直接 使 用 。 示 例 代 码 如 下 : 


# 引入 存储 系统 

>>> from django.core.files.storage import default storage 

>>> from django.core.files.base import ContentFile 

# 保存 内 容 到 文件 

>>> path = default storage.save('/path/to/file', ContentFile('new content')) 
>>> path 
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'/path/to/file' 
# 查看 文件 大 小 


>>> default storage.size (path) 


和 El 

# 读 取 文件 内 容 

>>> default storage.open (path) .read() 
"new content" 

# 删除 文件 

>>> default storage.delete (path) 

# 检查 文件 是 否 存在 

> default storage.exists (path) 
False 


Django 也 支持 自 定义 存储 系统 ， 自 定义 存储 系统 类 的 实现 有 一 些 限制 : 

@ 必须 继承 django.core.files.storage.Storage 类 ， 

@ 初始 化 时 不 能 传 入 参数 ,因此 所 有 的 配置 选项 都 必须 在 django.conf settings 中 定义 。 

@ 必须 实现 _open( ) 方 法 和 _save( ) 方 法 。 另 外 ， 如 果 系 统 提 供 的 是 本 地 存储 ， 必 须 
履 盖 path( ) 方 法。 

@ 必须 是 可 解构 的 ， 以 便 在 迁移 中 可 以 对 其 序列 化 。 


4.4.3 ”使 用 对 象 存储 系统 


传统 的 基于 网 络 的 存储 技术 ， 有 网 络 附属 存储 (Network Attached Storage，NAS) 和 存 
储 区 域 网 络 (Storage Area Network，SAN) ， 这 两 者 都 存在 可 扩展 性 问题 。NAS 缺乏 以 当 
前 IT 环境 所 要 求 的 PB 级 操作 的 灵活 性 ， 而 SAN 的 架构 复杂 ， 导 致 维护 成 本 高 ， 同 时 扩容 
的 成 本 也 很 高 。 

在 传统 的 网 络 文件 系统 中 ， 计 算 机 操作 系统 通过 块 存储 或 网 络 存储 协议 来 处 理 访问 存 
储 的 任务 。 这 些 协 议 管理 存储 分 配 、 访 问 和 文件 属性 。 结 构 上 的 链 式 抽象 ， 会 导致 可 伸缩 
性 存在 问题 。 

现在 流行 的 对 象 存储 系统 使 用 不 同 的 方式 来 存储 、 组 织 和 访问 磁盘 上 的 数据 。 它 不 使 
用 文件 系统 ， 其 中 文件 元 数据 与 文件 数据 分 开 存储 ， 文 件数 据 和 元 数据 存储 为 单个 对 象 。 

当前 最 流行 的 对 象 存 储 系统 就 是 AWS (亚马逊 云 服 务 ) 提供 的 S3 服务 。 同 时 流行 
的 开源 的 Ceph 文件 系统 也 提供 对 象 存储 服务 ， 并 且 提 供与 S3 基本 数据 访问 模型 兼容 的 
RESTful API。 

这 里 假设 您 已 经 获得 了 AWS S3 的 服务 访问 权限 或 者 搭建 好 了 Ceph 的 对 象 存储 服务 。 


第 4 意 视 图 一 77 


我 们 将 以 AWS S3 为 例 来 说 明 如 何在 Django 中 使 用 远程 对 象 存储 服务 。 

在 开始 前 ， 需 要 在 环境 中 安装 相应 的 依赖 包 ， 这 里 需要 安装 两 个 包 : boto3 是 AWS 提 
供 的 Python SDK, 包含 了 操作 S3 的 方法 ; django-storages 是 一 个 开源 的 Django 第 三 方 应 用 ， 
包含 了 S3、Dropbox 等 系统 的 Django 存储 后 端 。 代 码 如 下 : 


pip install boto3 # AWS 的 Python SDK 
pip install django-storages # 自 定义 存储 后 端 


修改 settingspy， 在 INSTALLED APPS 中 添加 storages， 在 添加 了 这 个 应 用 后 ， 我 们 
才能 使 用 定义 的 存储 后 端 。 示 例 代码 如 下 : 


INSTALLED APPS = [ 
"django .contrib.auth'， 
"storages' 


1 


继续 修改 settings.py， 添 加 相关 的 使 用 配置 ， 配置 包含 两 部 分 ， 一 部 分 是 访问 S3 所 需 
要 的 鉴 权 及 服务 信息 ， 另 一 部 分 是 配置 Django 的 DEFAULT FILE_STORAGE。 示 例 代码 
如 下 ， 


AWS_ACCESS KEY ID = 'your access _key id' # 访问 密 钥 ID 
AWS_SECRET ACCESS KEY = 'your secret access key' # 访问 私 钥 
AWS_STORAGE BUCKET NAME = 'site bucket' # 创建 的 桶 名 
AWS_S3 CUSTOM DOMAIN = '%S.53.amazonaws.com' % AWS STORAGE BUCKET NAME 
# 桶 对 应 的 域名 
AWS_S3 OBJECT PARAMETERS = { 
'CacheControl': 'max-age=86400'， # 设 置 缓存 
} 
AWS_LOCATION = "files' 
DEFAULT FILE STORAGE = "storages.backends.s3boto3.S3Boto3Storage' # 设 
置 存储 系统 


现在 来 创建 一 个 fleupload 应 用 程序 ， 并 定义 模型 ， 模 型 包括 文件 的 上 传 时 间 和 文件 的 
路 径 。 代 码 如 下 : 

from django.db import models 

class Document (models .Model): 


uploaded at = models.DateTimeField(auto now add=True) # 上 传 时 间 
upload = models.FileField() # 上 传 文件 


ET bs 


视图 函数 需要 处 理 上 传 的 逻辑 ， 已 经 上 传 完成 展示 地 址 ， 我 们 还 想 展示 已 经 上 传 的 文 
件 列表 ， 这 里 使 用 框架 自 带 的 CreateView: 


from django.views.generic.edit import CreateView # 引入 系统 自 带 CreateView 
from django.core.urlresolvers import reverse lazy 
from .models import Document # 刚才 创建 的 模型 
class DocumentCreateView (CreateView): 
model = Document # Document 模 型 
fields = ['upload'，] 间 字段 
Success url = reverse lazy('home') 
def get context datal(self, **kwargs): # 获取 上 下 文 数据 的 方法 
context = super() .get context data(**kwargs) 
documents = Document .objects.all() # 所 有 上 传 文档 
context['documents'] = documents # 文档 传 入 上 下 文 
return context # 模板 泻 染 的 上 下 文 


接 下 来 创建 模板 内 容 ， 模 板 包含 两 部 分 ， 一 部 分 用 于 上 传 文件 ， 另 一 部 分 用 于 列 出 所 
有 上 传 文件 列表 。 示 例 代 码 如 下 : 


<!-- 上 传 文件 的 表单 --> 
<form method="post" enctype="multipart/form-data"> 
{% csrf token %} 
{{ form.as p }} 
<button type="submit">Submit</button> 
</form> 
<!-- 用 于 展示 的 表格 --> 
<table> 
<thead> 
<Er> 
<th>Name</th> 
<th>Uploaded at</th> 
<th>Size</th> 
/ET 
</thead> 
<tbody> 
<!-- 列 出 上 下 文 传 入 的 所 有 的 文档 --> 
{ 当 for document in documents %} 
KEF> 
<!-- 展 示 不 同 的 文档 --> 
<td><a href="{{ document .upload.url }}" 
target=" blank">{{ document.upload.name }}</a></td> 
<td>{{ document.uploaded at }}</td> 
<td>{{ document.upload.sizel|filesizeformat }}</td> 
<FEE> 
{SS endfor 委 } 
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</tbody> 
</table> 


当然 真正 完成 功能 ， 还 需要 配置 URLconf， 前 面 已 经 提 到 过 ， 这 里 就 不 再 著述 了 。 


b4.5) 生成 文件 


在 网 站 上 生成 文件 供 下 载 是 一 个 十 分 常见 的 功能 ， 例 如 ， 财 务 人 员 生 成 员工 的 薪资 报 
表 并 下 载 供 审计 ， 运 营 人 员 生 成 某 个 周期 的 运营 数据 供 汇报 ， 商 务 人 员 生 成 电子 合同 供 打 
印 等 。 常 见 的 文件 格式 有 PDF、CSV 等 。 本 节 将 介绍 如 何 使 用 Python 生成 文件 。 


4.5.1 ”生成 CSV 文 件 


CSV 是 字符 分 隔 值 文件 格式 ， 其 文件 以 纯 文本 形式 存储 表格 数据 ， 是 一 种 通用 的 、 相 
对 简单 的 文件 格式 ， 广 泛 应 用 于 商业 和 科学 等 领域 。 很 多 程序 支持 某 种 CSV 变 体 。 
Python 自 带 了 一 个 CSV 库 ， 我 们 先 安装 它 : 


pip install csv 


csv 模块 与 Django 一 起 使 用 的 关键 是 该 模块 CSV 创建 成 功 的 操作 对 象 ， 类 似 于 文件 对 
象 ， 而 Django 的 HttpResponse 对 象 也 类 似 于 文件 对 象 。 视 图 函数 示例 代码 如 下 : 


import csv # 引入 csv 模 块 

from django.http import HttpResponse # 引入 响应 类 

def some view(request) : # 视图 函数 
# 响应 头 中 设置 内 容 类 型 是 text/csv 
response = HttpResponse (Content type='text/csv') 
# 设置 Content-Disposition 为 attachment, 表示 以 附件 形式 展示 文件 
response['Content-Disposition'] = 'attachment; filename="somefilename.csv"' 
# 传 入 响应 对 象 生成 writer 
writer = csv.writer (response) 
# 文件 内 容 
writer.writerow(['First row', 'Foo', 'Bar', 'Baz']) 
Wwriter.writerow(['Second row', 'A', 'B', 'C', '"Testing"', "Here's a quote"]) 
return response 


EVR 


注意 : 

@ 响应 中 设置 MIME 类 型 为 text/csv。 这 个 字段 用 于 告诉 浏览 器 这 个 文档 是 CSV 文件 。 
@ 响应 中 有 Content-Disposition 头 。 这 个 头 包 含 了 CSV 文件 的 名 字 。 

@ 调用 writer writerow 函数 ， 向 其 传递 一 个 可 和 迭代 对 象 ， 会 在 CSV 文件 中 加 入 一 行 。 
@ csv 模块 会 处 理 引用 ， 因 此 不 必 在 字符 串 中 转 义 引号 或 过 号 。 

当 要 下 载 的 文件 非常 大 时 ， 视 图 函数 处 理 时 间 过 长 ， 可 能 导致 负载 均衡 器 在 服务 器 生 


成 完成 文件 前 断 开 连 接 , 这 时 可 以 使 用 StreamingHttpResponse 避免 这 个 问题 ,示例 代码 如 下 : 


import csv ## 引入 csv 模 块 
from django.http import StreamingHttpResponse  # 引入 流 响 应 类 
class Echo (object): # 简单 输出 传 入 的 值 
def write (self，value) : 
# 直接 返回 字符 ,不 缓存 
return Value 
def some streaming csV_view(request) : # 视图 函数 
# 生成 一 个 很 大 的 列表 , 65536 是 很 多 文档 单个 sheet 的 上 限 
rows = (["Row {}".format (idx), str(idx)] for idx in range(65536) 
pseudo buffer = Echo() 
writer = csv.writer (pseudo buffer) 
# 和 上 面 的 例子 一 样 
response = StreamingHttpResponse ( (writer.writerow (row) for row in rows), 
content _ type="text/csv")  # 响应 数据 
response['Content-Disposition'] = "attachment; filename="somefilename.csv""' 
# 设置 响应 头 


return response 


4.5.2 ”生成 PDF 文件 


动态 生成 PDF 文件 的 优点 是 ， 可 以 基于 不 同 目的 创建 自 定义 PDF。 例如， 针对 不 同 用 


户 生 成 不 同 内容 。 这 里 我 们 使 用 reportlab 库 生 成 PDF。 首 先 安装 reportlab: 


pip install reportlab 


和 csv 模块 类 似 ，reportlab 操作 的 对 象 和 文件 对 象 是 类 似 的 ， 所 以 与 响应 对 象 的 集成 方 


式 也 类 似 。 示 例 代 码 如 下 : 


from reportlab.pdfgen import canvas # 引入 canvas 模 块 
from django.http import HttpResponse # 引入 响应 类 
def some View (request): 
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厅 响应 头 设置 内 容 类 型 为 PDF; 设置 为 附件 下 载 
response = HttpResponse (content type="'application/pdf') 
response['Content-Disposition'] = "attachment; filename="somefilename.pdf"" 
: 创建 PDF 对 象 
= canvas.Canvas (response) 
¥ 绘制 PDF 文档 内 容 
p.drawString(100，100，"Hello world.") 
井 关闭 文档 对 象 
P.showPage () 
p.save() 
return response 


可 以 看 到 ， 生 成 PDF 文件 的 过 程 和 生成 CSV 文件 的 过 程 是 很 类 似 的 ， 读 者 可 以 看 上 
面 的 代码 和 注释 ， 这 里 不 再 獒 述 。 


任何 内 核 代码 和 用 户 应 用 程序 之 间 的 软件 代码 都 可 以 是 中 间 件 。 中 间 件 可 以 使 软件 开 
发 人 员 更 容易 实现 通信 和 输入 / 输出 ， 从 而 专心 于 实现 业务 逻辑 。 
而 在 Django 中 ， 中 间 件 是 处 理 请 求 / 响应 的 钩子 框架 。 它 相当 于 一 个 “插件 ”系统 ， 
用 于 全 局 改变 Django 的 输入 或 输出 。 每 个 中 间 件 组 件 负 责 执行 某 些 特定 功能 。 
在 请 求 阶段 ， 调 用 视图 之 前 ，Django 会 按照 MIDDLEWARE CLASSES 定义 的 自 下 而 
上 的 顺序 应 用 中 间 件 。 有 两 个 钩子 函数 : process_request( ) 和 process_view( )。 
在 响应 阶段 , 调用 视图 之 后 , 按照 MIDDLEWARE CLASSES 定义 的 相反 顺序 应 用 中 间 件 。 
有 3 个 钧 子 函数 : process_exception( )、process_template response( ) 和 process_Teponse( )。 
Dijango 中 间 件 的 调用 过 程 如 图 4.1 所 示 。 
每 个 中 间 件 都 是 一 个 Python 类 ， 它 定义 了 以 下 一 种 或 多 种 方法 。 
(1) process request (request) 。 在 Django 决定 执行 哪个 视图 前 ， 会 在 每 个 请 求 上 调 
用 process Tequest( ) 方法 。 这 个 方法 返回 None 或 者 响应 对 象 。 如 果 该 方法 返回 None， 则 
Django 继续 往 下 执行 ， 如 果 该 方法 返回 响应 对 象 ， 则 Django 将 不 会 继续 调用 请 求 、 视 图 和 
异常 中 间 件 ， 而 是 会 应 用 响应 中 间 件 ， 然 后 返回 结果 。 
(2) process view (request, view func, view args,view kwargs) 。request 是 
求 对 象 , view_func 是 Django 将 要 使 用 的 视图 函数 , view_args 和 view_kwargs 是 传递 的 参数 。 
这 个 方法 在 Django 调 用 视图 前 被 调用 。 该 方法 的 返回 结果 、 后 续 流 程 和 process_request 相 似 。 


一 个 请 
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(3) process template response (request， response) 。request 是 一 个 请 求 对 象 ， 
response 是 一 个 模板 响应 对 象 。 它 返回 的 对 象 必须 实现 render 方法 。 

(4) process response (request， response) 。 参 数 含义 同 process_template_ response。 
Django 将 在 把 响应 返回 到 浏览 器 之 前 调用 process_response( )。 它 必须 返回 一 个 响应 对 象 或 
流 式 响 应 对 象 。 这 个 方法 一 定 会 被 调用 。 

(5) process_exception (request， exception) 。request 是 一 个 请 求 对 象 ，exception 是 
视图 函数 抛 出 的 异常 。Django 在 视图 函数 抛 出 异常 后 调用 这 个 方法 。 


请 求 对 象 响应 对 象 


号 中 间 件 1 忆 上 本 
号 了 2 
| | 中 间 件 2 | | 多 
和 医 8| | 吕 |a 
2 各 中 间 件 3 辣 号 

中 | 引 | 

中 间 件 4 号 
视图 


4.1 Django 中 间 件 的 调用 过 程 


中 间 件 经 常用 来 处 理 和 业务 无 关 或 者 和 所 有 业务 都 有 关 的 逻辑 。 假设 现在 有 一 个 需求 ， 
要 求 网 站 在 每 天 晚上 11 点 后 停止 服务 , 用 户 请 求 所 有 页 面 都 返回 “商店 已 打 料 , 请 明日 再 来 ” 
的 信息 。 

可 以 通过 很 多 方法 实现 这 样 的 需求 ， 如 使 用 脚本 定时 修改 接 入 层 的 配置 ， 在 晚上 11 点 
后 将 所 有 请 求 导 向 一 个 静态 页 面 。 现 在 ， 我 们 通过 修改 应 用 来 完成 这 个 功能 。 

我 们 不 希望 在 所 有 现 有 视图 中 加 上 这 样 的 代码 ， 结 合 本 节 学 到 的 知识 ， 我 们 可 以 编写 


一 个 中 间 件 来 完成 这 个 功能 ， 在 该 中 间 件 中 添加 process_request 方法 ， 以 拦截 用 户 的 请 求 。 
示例 代码 如 下 : 


from datetime import datetime # 日 期 类 


from django.http import HttpResponse 响应 类 
class WeAreClosed (object): 


def process request (request): 
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if datetime.now() .hour < 23: # 如 果 不 到 23 点 , 则 正常 通过 
else，# 如 果 到 了 23 点 , 则 返回 关门 页 面 
html = "<html><boqdy> 我 们 关门 了 ,请 明天 再 来 </body></html>" 
return HttpResponse (html) 
然后 ， 我 们 需要 修改 settings.py 让 这 个 中 间 件 生效 。 为 了 提高 效率 ， 我 们 将 这 个 中 间 
件 放 在 中 间 件 列表 的 第 一 个 ， 这 样 过 了 11 点 ， 执 行 完 这 个 中 间 件 后 ， 就 不 会 再 执行 其 他 中 


间 件 的 process_request( ) 和 process_view( ) 方法 了 。 示 例 代码 如 下 : 


MIDDLEWARE CLASSES = ( 
"Your .path.WeAreClosed', 


视图 函数 往往 “ 包 右 ”着 业务 代码 ， 是 应 用 的 逻辑 核心 。 本 章 介绍 了 如 何 使 用 Django 
的 URLconf 来 配置 应 用 的 URL， 以 及 如 何 使 用 视图 函数 和 类 视图 。 对 于 初学 者 来 说 ， 视 图 
函数 是 最 常用 的 编写 视图 的 方法 ， 而 类 视图 更 能 体现 面向 对 象 的 编程 思想 ， 更 有 利于 代码 
的 复 用 。 

在 业务 逻辑 中 不 可 避免 地 要 与 文件 打交道 ， 其 中 涉及 保存 用 户 的 文件 和 向 用 户 提供 文 
件 下 载 功 能 。 本 章 先 介绍 了 使 用 Django 处 理 文件 的 基本 方法 ， 然 后 介绍 了 保存 文件 的 几 种 
技术 方案 及 其 优 缺 点 ， 最 后 提供 了 上 传 文件 到 S3 服务 和 下 载 PDF、CSV 文件 的 代码 示例 。 

在 业务 的 逻辑 处 理 过 程 中 ， 会 有 一 些 通用 的 功能 从 业务 场景 中 抽 离 出 来 ，Django 通常 
把 这 样 的 功能 放 入 中 间 件 中 。 


问题 一 : 使 用 URL 反 向 解析 有 哪些 好 处 ? 
问题 二 : 请 编写 用 于 下 载 Excel 文件 的 视图 ， 文 件 包 含 简单 数据 即 可 。 
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作为 有 经 验 的 Web 开发 人 员 ， 我 们 的 目标 是 开发 灵活 且 易于 维护 的 应 用 程序 。 实 现 这 一 目标 的 
一 个 重要 方面 是 业务 逻辑 与 展示 逻辑 的 分 离 。 网 页 模板 就 是 用 来 维持 这 种 分 离 的 技术 手段 。 作 为 一 
个 Web 框架 ，Django 具有 动态 生成 HTML 的 功能 。 

本 章 涉及 的 主要 知识 点 : 

@ 认识 模板 : 学 习 模板 的 作用 及 种 类 。 

@ Dijango 的 模板 系统 : 学 习 使 用 Django 的 模板 。 

@ 其 他 模板 库 : 学 习 使 用 Jinja2 蔡 换 Django 自 带 的 模板 系统 。 


一 个 模板 的 泻 染 需要 三 方 参与 

@ 模板 引擎 : 主要 参与 模板 泻 染 的 系统 。 

@ 内 容 源 : 输入 的 数据 流 。 比 较 常见 的 有 数据 库 、XML 文件 和 用 户 请 求 这 样 的 网 络 数据 。 
@ 模板 : 一 般 是 和 语言 相关 的 文本 。 

模板 系统 的 工作 过 程 如 图 5.1 所 示 。 


1: 小 明 


2: 小 红 
3: 小 刚 


数据 库 


欢迎 小 红 欢迎 小 明 j 
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图 5.1 模板 系统 的 工作 过 程 


图 5.1 可 以 看 到 , 模板 和 内 容 源 由 模板 引擎 处 理 和 组 合 , 批量 生成 Web 文档 。 在 图 5.1 
所 示 的 例子 中 ， 数 据 来 自 数据 库 。 

对 于 网 页 设计 师 来 说 ， 当 网 页 由 模板 生成 时 ， 考 虑 使 用 彼此 独立 的 组 件 来 构建 模块 化 
的 网 页 ， 对 于 程序 员 来 说 ， 模 板 仅 用 于 网 页 的 展示 部 分 ， 而 不 会 涉及 复杂 的 业务 逻辑 ， 对 
于 网 站 的 其 他 工作 人 员 来 说 ， 模 板 系统 可 以 使 运 维 人 员 更 专注 于 技术 维护 ， 使 内 容 提供 商 
更 专注 于 内 容 ， 大 家 的 分 工 更 明确 。 

这 样 的 分 工 是 非常 重要 的 ， 因 为 同时 懂得 网 站 界面 设计 和 业务 逻辑 编码 的 人 非常 少 。 
另外 ， 开 发 者 经 常会 在 不 同 的 地 方 和 不 同 的 时 间 段 工作 ， 实 时 沟通 非常 困难 。 随 着 业务 规 
模 的 扩大 ， 如 果 不 明确 职责 ， 不 同 部 门 合作 会 很 麻烦 。 
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52】 Django 模板 系统 


作为 一 个 Web 框架 ，Diango 自 带 了 一 套 模板 系统 ， 以 动态 生成 HIML 文本 。Django 
的 模板 主要 包含 两 个 部 分 : HTML 的 静态 部 分 和 描述 如 何 插入 动态 内 容 的 一 些 特殊 语法 。 
这 套 系统 功能 强大 ， 可 配置 性 强 ， 可 以 很 好 地 支持 开发 者 开发 动态 页 面 。 


5.2.1 配置 


和 模型 一 样 , 模板 的 配置 也 在 settings.py 文件 中 实现 , 配置 变量 是 TEMPLATES 的 列表 。 
列表 中 的 每 一 项 代表 一 个 模板 引擎 ， 默 认 这 个 列表 为 空 。 示 例 代 码 如 下 


TEMPLATES =[  ”# 模板 配置 变量 
{ 
'BACKEND' : 'django.tenplate.backends.django.DjangoTemplates'，# 配置 使 用 自 带 模板 
'DIRS': [ # 配置 寻 址 目录 
'/var/www/html/site.com', 
'/var/www/html/default', 


'BACKEND' : 'django.template.backends .jina2.Jinja2'，# 配置 使 用 Jinja2 模 板 
'DIRS': '/var/www/html/another app' # 配置 寻 址 路 径 
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在 上 面 的 代码 中 ，BACKEND 是 Django 模板 后 端的 代码 路 径 ， 这 个 路 径 的 类 实现 了 
Django 模板 后 端 定义 的 接口 。DIRS 配置 了 模板 引擎 查找 模板 源 文件 的 目录 列表 。 
有 两 个 函数 可 以 用 来 加 载 模板 : get_template( ) 和 select template( )。 这 两 个 函数 会 根据 
传 入 的 模板 文件 名 加 载 文件 ， 并 且 返 回 一 个 模板 对 象 ， 不 同 的 是 ，get_template( ) 接受 一 个 
文件 名 作为 参数 ，select template( ) 接受 一 个 文件 名 列表 作为 参数 。 
按照 上 面 的 配置 ， 调 用 get _ template ('story_detail.html') 方法 时 ，Dijango 按照 下 面 的 
顺序 寻找 模板 文件 : 
(1) /var/www/html/site.com/story_detail.html; 
(2) /var/www/html/default/story_detail.html; 
(3) /var/www/html/another app/story_detail.html。 
调用 select_template (['story_list.html'， 'story_detail.html']〉 时 ， 查 找 的 顺序 如 下 : 
(1) /var/www/html/site.com/story_list.html; 
(2) /var/www/html/default/story_list.html; 
(3) /var/www/html/another app/story_detail.html; 
(4) /var/www/html/site.com/story_detail.html; 
(5) /var/www/html/default/story_detail.html; 
(6) /var/www/html/anothter app/story_detail.html。 
当 找 到 一 个 存在 的 文件 时 ，Django 将 停止 寻找 。 


5.2.2 ”模板 语言 


Diango 的 模板 形式 比较 简单 , 可 以 是 一 个 文本 文档 , 也 可 以 是 用 模板 语言 标记 的 字符 串 。 
模板 引擎 可 以 识别 模板 中 的 特殊 结构 ， 以 动态 生成 文本 。 主 要 的 特殊 结构 有 变量 和 标签 。 

在 进行 泻 染 的 时 候 ， 需 要 传 入 泻 染 上 下 文 ， 模 板 引擎 根据 上 下 文 对 模板 中 的 变量 进行 
替换 ， 并 且 执 行 标签 指示 的 操作 ， 最 后 输出 文本 。 上 下 文 是 一 个 类 似 字典 的 对 象 。 

Django 的 模板 语言 包含 4 个 结构 : 变量 、 标 签 、 过 滤器 和 注释 。 

1. 变量 


变量 用 “{{” 和 “分 ” 包 于 起 来 ， 例 如 : 


我 姓 {{ first_name }} ,我 的 名 是 {{ last name }} 
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如 果 传 入 的 上 下 文 是 ffirst_ name! u' 张 ', last name! uw 文 君 , 那么 对 变量 进行 替换 后 ， 
上 面 的 模板 就 会 被 泻 染 为 


我 姓 张 , 名 字 是 文 君 


上 下 文 传 入 的 变量 可 以 是 字典 、 列 表 和 对 象 ， 这 3 种 结构 在 模板 中 都 要 通过 “.” 来 访 
问 数据 ， 例 如 : 


{{ my _dict.key }} # 字典 
{{ my _object.attribute}} # 对 象 
{{ my_list.0 }} # 列表 


如 果 传 入 的 变量 可 以 被 调用 ， 如 函数 ， 那 么 模板 系统 会 调用 这 个 函数 ， 然 后 使 用 结果 
替换 这 个 变量 。 

2. 标签 

标签 用 于 在 演 染 过 程 中 提供 逻辑 控制 。 常 见 的 标签 有 条 件 判断 和 循环 逻辑 控制 。 例 如 ， 
使 用 for 标签 遍历 可 和 迭代 对 象 的 每 一 个 项 目 。 下 面 的 示例 遍历 了 一 个 运动 员 的 列表 ， 并 演 染 
成 HIML 列表 ， 代 码 如 下 : 


<ul> 

{$$ for athlete athlete list $s} 
<li>{{ athlete.name}}</1i> 

{$$ endfor $} 

</ul> 


下 面 的 模板 判断 当前 请 求 页 面 的 用 户 是 否 得 到 验证 ， 如 果 验 证 就 展示 用 户 名 ， 如 果 没 
有 验证 就 不 展示 用 户 名 。 代 码 如 下 : 


{s if user.is authenticated $} 你 好 ，{{ user.username }}o 
{% endif %} 


对 于 Django 来 说 ， 标 签 的 含义 比较 模糊 ， 这 是 有 意 而 为 之 的 。 上 面 展示 的 两 个 例子 有 
开始 标签 和 结束 标签 用 来 表示 控制 逻辑 的 开始 和 结束 。 对 于 不 需要 类 似 逻 辑 控制 的 标签 ， 
结束 标签 是 不 必要 的 ， 如 之 前 提 到 的 URL 标签 。 示 例 代码 如 下 : 


{$s Url 'some-url-name' argl arg2 %} 
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3. 过 滤器 
过 滤器 用 来 对 变量 做 一 些 处 理 。 比 如 title 过 滤器 ， 它 可 以 将 要 展示 的 变量 转换 成 标题 
的 形式 ， 即 将 英文 单词 的 首 字母 变 成 大 写 ， 示 例 代码 如 下 : 


{{ some textl|title }} 


在 上 下 文 为 {'some text': ”'tonight is going to be a good night'} 时 ， 上 面 的 模板 会 被 泻 染 
成 下 面 的 字符 串 : 


Tonight Is Going To Be A Good Night 


4. 注释 

编码 时 一 定 会 用 到 注释 ， 用 于 说 明代 码 的 用 途 ， 或 者 注释 掉 部 分 代码 用 于 调试 。 
Django 模板 的 注释 格式 是 人 # 注释 应 ， Python 语言 也 支持 用 “#” 进 行 注释 。 注 释 可 以 是 
任何 模板 代码 ， 如 下 面 的 示例 : 


{# {% if foo %}bar{$% else $%} #} 


使 用 “#” 只 能 注释 掉 一 行 代码 ， 想 要 注释 掉 多 行 代 码 ， 则 需要 使 用 comment 标签 。{% 
comment %} 和 {% endcomment %} 之 间 的 任何 代码 都 不 会 被 泻 染 。 可 以 在 第 一 个 标签 中 插 
入 一 些 可 选 注释 ， 用 来 标注 注释 的 原因 或 时 间 ， 如 下 面 的 代码 : 


<p> 泻 染发 布 时 间 : {1{ pub_dateldate:"c" }}</p> 
{$$ comment "Optional note" %} 

<p> 注 释 掉 创建 时 间 {{ create dateldate:"c" }}</p> 
{$$ endcomment $} 


在 实际 开发 网 站 的 时 候 ， 可 能 会 存在 不 同 页 面 的 结构 和 样式 是 一 样 的 情况 ， 如 页 面 头 
部 的 导航 栏 、 页 面 侧 边 的 导航 栏 、 页 面 底部 的 版 权 属 信息 等 。 如 果 为 不 同 的 页 面 单独 编写 
模板 ， 就 会 出 现 不 同 模板 存在 重复 代码 的 情况 ， 维 护 会 变 得 困难 。 

和 编写 业务 代码 类 似 ， 要 处 理 这 个 问题 ， 比 较 好 的 做 法 是 将 公用 的 代码 部 分 抽 离 出 来 ， 
在 其 他 地 方 需要 用 到 相同 功能 的 地 方 引 入 公用 部 分 。 
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Django 的 模板 支持 继承 ， 是 实现 这 种 抽 离 一 个 非常 好 的 方法 。 继 承 是 Django 模板 中 最 
强大 、 最 复杂 的 功能 。 通 过 模板 继承 ， 可 以 建立 一 个 页 面 的 “骨架 ”， 这 个 “骨架 ”包含 
网 站 的 所 有 常见 元 素 ， 这 意味 着 可 以 将 相同 的 HTML 代码 部 分 用 于 网 站 的 不 同 页 面 。 

现在 来 实现 两 个 简单 的 页 面 ， 这 两 个 页 面 分 别 是 帮助 页 面 和 主页 面 。 这 两 个 页 面 都 包 
含 顶部 导航 栏 和 底部 的 页 脚 ， 但 是 中 间 的 显示 部 分 不 同 ， 页 面 标题 也 不 同 。 为 了 抽 离 出 这 
两 个 页 面 的 公共 部 分 ， 我 们 定义 一 个 base.html 文件 ， 文 件 内 容 如 下 : 


<!DOCTYPE html> 
<html lang="en"> 
<head> 
<link rel="stylesheet" href="style.css"> 
<title>{s block title 名 } 来 自 简单 的 说 明 网 页 {%$ endblock %}</title> 
</head> 
<body> 
<div id="sidebar"> 
<ul> 
<1i><a href="/"> 主 页 </a></1i> 
<li><a href="/help/"> 帮 助 </a></1i> 
</ul> 
</div> 
<div id="content"> 
{$S block content %}{% endblock $} 
</div> 
<footer id="footer"> 我 是 页 脚 </footer> 
</body> 
</html> 


我 们 将 继承 了 上 面 这 个 模板 的 模板 叫 作 子 模板 。 按 照 上 面 的 要 求 ， 我 们 要 实现 两 个 子 
模板 ， 一 个 用 于 主页 ， 一 个 用 于 帮助 页 面 。 主 页 的 代码 如 下 : 


{SS extends "base.html" %} 

{SS block title $%} 主 页 {% endblock %} 

{SS block content %} 

<h2> 欢 迎 ! </h2> 

<p> 虽 然 这 个 网 站 什么 内 容 都 没有 , 但 是 它 展 示 了 使 用 模板 继承 的 用 法 。</p> 
{$$ endblock %} 


在 上 面 代码 中 ， 实 现 继承 的 关键 是 extends 标签 。 它 告诉 模板 引擎 该 模板 扩展 了 另外 一 
个 模板 。 当 模板 系统 泻 染 主页 面 时 ， 首 先 要 找到 父 模板 ， 即 base .html 文件 。 在 父 模板 中 ， 
引擎 会 找到 两 个 block 标签 ， 然 后 用 子 模板 中 的 内 容 填 充 这 个 区 域 。 

继承 的 级 数 并 没有 限制 。 不 过 在 实践 中 ， 最 常用 的 做 法 是 定义 三 级 模板 。 第 一 级 模板 
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包含 网 站 的 “骨架 ”; 第 二 级 模板 包含 网 站 功能 的 一 个 分 类 , 如 “用 户 中心 ”“ 商 品 中 心 ”等 ， 
这 一 级 模板 会 包含 一 些 列表 , 第 二 级 模板 继承 第 一 级 模板 ; 第 三 级 模板 包含 了 主要 的 信息 ， 
如 用 户 详情 、 商 品 详情 等 ， 第 三 级 模板 继承 第 二 级 模板 。 帮 助 页 面 的 实现 类 似 ， 请 读者 自 
己 完 成 。 


人 留 ) 字符 转 义 


安全 是 Web 应 用 不 可 忽视 的 一 部 分 。 从 模板 生成 HTML 文本 ， 有 可 能 包含 影响 网 页 正 
常 运 行 的 风险 。 例 如 下 面 用 于 展示 用 户 名 的 模板 : 


你 好 ，{{ username }} 


该 模板 看 起 来 好 像 没 有 问题 ， 但 是 隐藏 着 风险 ， 攻 击 者 可 能 有 机 会 借 此 发 起 XSS 攻击 。 
举 一 个 简单 的 例子 ， 恶 意 用户 可 能 会 将 自己 的 用 户 名 设置 为 


<script>alert (' 一 次 攻击 ')</script> 


那么 ， 在 没有 特殊 处 理 的 情况 下 ， 上 面 的 模板 会 被 泻 染 成 一 段 执 行 JavaScript 脚本 的 页 
面 ， 脚 本 会 在 任何 请 求 到 这 个 用 户 名 的 页 面 上 执行 ， 出 现 一 个 弹出 “一 次 攻击 ”的 弹 窗 ， 
执行 的 脚本 如 下 : 


你 好 ，<script>alert (' 一 次 攻击 ')</script> 


类 似 地 ， 恶 意 用 户 还 可 以 上 传 别 的 字符 来 改变 文本 的 显示 样式 ， 如 在 上 传 的 字符 中 包 
含 <b> 这 样 的 HTML 样式 标签 。 
恶意 用 户 可 能 会 利用 这 种 漏洞 做 潜在 的 坏事 ， 因 此 ， 用 户 提交 的 数据 不 应 该 被 盲目 地 
信任 和 直接 在 网 页 上 展示 。 
使 用 Django 处 理 这 种 问题 有 两 种 选择 。 
(1) 对 不 信任 的 变量 执行 escape 过 滤 ， 这 个 过 滤器 会 对 潜在 的 危险 字符 串 进行 转 义 。 
这 个 方法 依赖 开发 者 调用 的 转 义 过 滤器 。 鉴 于 开发 者 有 可 能 会 忘记 调用 这 个 过 滤器 ， 因 此 
网 页 有 可 能 还 是 会 被 攻击 。 
(2) 使 用 Django 自动 对 HIML 文本 进行 转 义 。 默 认 情况 下 ，Dijango 会 对 模板 中 变量 
的 输出 进行 自动 转 义 ， 这 是 一 个 比较 理想 的 处 理 方式 。 
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具体 地 说 , 5 个 字符 串 会 被 自动 转 义 , 它们 分 别 如 下 : “<” 变 为 “&lt”“>” 变 为 “&gt”， 
单 引号 变 为 “&#39”， 双 引号 变 为 “&quot”“&” 变 为 “&amp”。 

Django 几乎 为 所 有 的 行为 都 提供 配置 ， 转 义 自然 也 不 例外 。 有 时 候 模板 变量 包含 开发 
者 打算 作为 原始 HTML 呈现 的 数据 ， 那 么 这 时 可 能 希望 内 容 不 被 转 义 。 要 想 对 单个 变量 关 
闭 自动 转 义 功能 ， 则 可 以 使 用 safe 过 滤器 ， 如 下 面 的 模板 代码 : 

这 个 会 转 义 : {{ data }} 

这 个 不 会 转 义 : {{ datalsafe }} 

假设 传 入 的 上 下 文 包含 了 要 转 义 的 字符 ， 如 {'data': '<b>'}， 那 么 在 演 染 时 ， 上 面 一 行 
会 自动 转 义 ， 下 面 的 一 行 不 会 自动 转 义 。 结 果 如 下 : 


这 个 会 自动 转 义 : &1lt;bggt; 

这 个 不 会 自动 转 义 : <b> 

另外 ， 也 可 以 控制 对 模板 的 自动 转 义 ， 这 时 要 用 到 autoescape 标签 ， 这 个 标签 用 来 将 
要 控制 的 模板 包 训 起 来 ， 例 如 : 


{% autoescape off %} 
你 好 {{ name }} 
{S$ endautoescape $} 
autoescape 可 以 接受 参数 on 或 者 of， 这 个 控制 的 粒度 很 灵活 ， 如 可 以 将 一 段 设置 为 不 
转 义 的 模板 的 一 部 分 设置 为 自动 转 义 。 示 例 代 码 如 下 : 


{% autoescape off %} 
这 个 不 会 被 自动 转 义 {{ data }}. 
{$$ autoescape on %} 
重新 开启 自动 转 义 {{ name }} 
{$s endautoescape %} 
这 个 也 不 会 被 自动 转 义 {{ other data }} 


{% endautoescape %} 

需要 注意 的 是 ， 过 滤器 是 支持 字符 串 作 为 参数 的 。 这 些 字符 串 并 不 会 被 自动 转 义 ， 这 
背后 的 思想 是 模板 的 作者 应 该 控制 文本 的 内 容 。 因 此 ， 开 发 者 应 该 确保 在 编写 模板 时 对 文 
本 进行 正确 的 转 义 。 

具体 来 说 , {{ dataldefault "3 <2" }} 这 样 的 写法 应 该 被 写成 {{ dataldefault "3 &lt 2"}} 
以 确保 安全 。 
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人 55 自 定义 标签 和 过 滤器 


Django 的 模板 语言 自 带 了 大 量 的 标签 和 过 滤器 ， 合 理 地 使 用 这 些 标签 和 过 滤器 能 够 在 
很 大 程度 上 满足 业务 逻辑 的 需要 ， 不 过 总 是 会 存在 自 带 功能 无 法 满足 需求 的 情况 ， 这 时 候 
就 需要 来 定制 一 些 工 具 了 。Django 的 模板 系统 允许 这 种 自 定 制 。 


5.5.1 ”代码 路 径 


一 般 来 说 ， 自 定义 标签 和 过 滤器 应 该 统一 放 在 一 个 文件 中 。 要 想 创建 自 定义 标签 和 过 


滤器 ， 需 要 在 应 用 的 目录 下 存在 一 个 叫 作 templatetags 的 包 ， 自 定义 标签 和 过 滤器 存放 在 这 
个 包 下 的 某 个 模块 中 。 


我 们 假设 这 个 模块 叫 作 customize.py， 现 在 应 用 的 目录 结构 如 下 : 


myapp 
_init .py 
FE models.py 
上 一 templatetags 
nu py 
| [一 一 customize.pY 
上 一 tests.py 
[一 一 views.py 
ls 


为 了 在 模板 中 使 用 自 定义 标签 和 过 滤器 , 首先 要 将 myapp 导入 INSTALLED APPS 中 ， 
然后 在 模板 代码 中 添加 : 


{$$ load customize %} 


{% load %} 用 于 声明 要 加 载 的 模块 ， 这 里 是 customize。 要 想 让 模块 发 生 作 用 ， 还 要 在 


模块 中 定义 一 个 名 为 register 的 变量 ， 这 个 变量 是 一 个 template.Library 实例 。 应 该 将 这 个 变 
量 在 模块 顶部 声明 ， 例 如 : 


from django import template # 引入 template 类 
register = template.Library() # 声明 register 对 象 


接 下 来 我 们 将 编写 实际 的 功能 。 


5.5.2 ”编写 自 定 义 过 滤器 


自 定义 过 滤器 其 实 是 一 个 普通 的 Python 函数 ， 这 个 函数 接收 1 到 2 个 参数 。 第 一 个 参 
数 是 传 入 的 变量 ， 作 为 输入 ;第 二 个 参数 可 以 作为 过 滤器 的 参数 ， 这 个 参数 可 以 不 传 ， 也 
可 以 设置 默认 值 。 例 如 ， 在 {{ varlfoo: "bar"}} 中 ，foo 是 一 个 过 滤器 ，var 作为 输入 传 入 ， 
bar 作为 参数 传 入 。 

Django 的 模板 语言 不 提供 异常 处 理 ， 在 过 滤器 中 抛 出 异常 会 被 返回 成 服务 错误 ， 因 此 
过 滤器 应 该 尽量 避免 抛 出 异常 。 

现在 我 们 编写 一 个 简单 的 过 滤器 ， 这 个 过 滤器 将 输入 的 截止 日 期 和 当前 的 日 期 做 一 个 
比较 ， 然 后 返回 不 同 的 提醒 。 示 例 代 码 如 下 : 


def get due date string(value) : 
delta = value - date.today() 获取 今天 和 截止 日 期 之 前 的 差 
if delta.days == 0: ， 间 # 截止 日 期 是 今天 
return un 今天 截止 ! " 
elif delta.days < 1: 
return un 过 去 ss 天 啦 !" % abs (delta.days) 
elif delta.days == 1: 
return un 明天 截止 ! " 
elif delta.days > 1: 
return u"%s 天 后 截止 " $ delta.days 


完成 函数 后 ， 需 要 使 用 Library 对 象 对 这 个 函数 进行 注册 ， 这 样 才 能 在 Django 的 模板 
语言 中 使 用 刚 注册 的 过 滤器 。 

注册 需要 调用 Library 对 象 的 flter( ) 方法 ， 这 个 方法 接受 两 个 参数 ， 第 一 个 是 过 滤器 
的 名 字 〈 字 符 串 )， 第 二 个 是 过 滤器 函数 。 也 可 以 使 用 装饰 器 ， 代 码 如 下 ; 

register.filter (name='get due date string') # 使 用 装饰 器 


def get due date string(value): 


如 此 操作 以 后 ， 就 可 以 在 模板 代码 中 使 用 新 建 的 过 滤器 了 。 


5.5.3 ” 自 定义 标签 


标签 比 过 滤器 要 复杂 一 些 ， 因 为 在 Django 的 模板 中 ， 标 签 可 以 用 来 做 任何 事情 。 
Django 提供 了 一 些 快捷 方式 来 帮助 开发 者 编写 标签 ， 比 较 常 用 的 快捷 方式 有 simple tag、 
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inclusion tag 和 assignment tag。 

很 多 标签 的 工作 方式 是 接受 参数 ， 并 且 处 理 后 返回 一 个 字符 串 。 要 创建 这 样 的 标签 ， 
可 以 使 用 simple tag。 

现在 想 获取 模型 所 有 商品 的 数量 。 修改 customize.py 文件 , 添加 代码 并 注册 ,代码 如 下 : 


from django import template 
register = template.Library() 
from shoes.myapp.models import Product 
Q@register.simple tag 
def any_function() : 
return Product.objects.count () 


和 自 定义 过 滤器 类 似 ， 要 使 用 自 定义 标签 ， 需 要 在 模板 中 使 用 {% load %} 标签 加 载 包 
含 自 定义 标签 的 模块 ， 在 模块 中 需要 声明 template.Library 变量 ， 注 册 标签 ， 并 且 将 应 用 加 
入 INSTIALLED APPS 中 。 

另 一 个 常见 的 模板 标记 使 用 另外 的 模板 来 展示 一 些 数据 ， 可 以 用 inclusion tag 来 实现 。 
值得 注意 的 是 ， 使 用 了 inclusion tag 函数 要 返回 一 个 字典 ， 这 个 字典 将 作为 指定 泻 染 的 上 
下 文 。 示 例 代码 如 下 : 


Qregister.inclusion tag('path to your html file.html') 

def any_function() : 
latest products = Product .objects.order by('-date created') Les 
return {'contect': latest products} 


assignment tag 有 点 像 simple_tag， 不 过 它 会 将 结果 存储 在 给 定 的 变量 中 。 这 种 标签 可 
以 访问 当前 的 上 下 文 ， 如 下 面 的 代码 : 


Q@register.assignment tag (takes context=True) 
def get current time(context, format string): 
timezone = context['timezone'] 间 获取 上 下 文中 的 时 区 
return your get current time method(timezone, format string) 


这 个 标签 从 上 下 文中 获取 时 区 信息 ， 然 后 根据 时 区 返回 当前 的 时 间 ， 在 模板 中 可 以 使 
用 as 参数 将 标签 处 理 的 结果 赋予 一 个 变量 ， 如 下 面 的 例子 : 


{g get current time "%Y-%m-%d $I:%M Sp" as the time $} 
<p> 现在 时 间 是 {{ the time }}.</p> 
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本 章 介绍 了 Django 的 模板 系统 。 模板 用 于 快速 生成 HIML 文档 , 用 于 在 浏览 器 上 显示 。 
事实 上 ， 不 少 编程 语言 都 支持 类 似 的 功能 ， 如 PHP、Java 语言 的 JSP 等 。Django 的 模板 系 
统 能 够 很 方便 地 将 模板 泻 染 成 Web 页 面 ， 同 时 提供 很 多 高 级 功能 。 

这 个 模板 系统 使 用 Python 语言 实现 ， 并 提供 了 高 度 抽象 的 接口 ， 因 此 增加 自 定义 功能 
非常 方便 。 

在 实践 中 ，Django 的 模板 大 多 用 于 自 定义 管理 后 台 系统 的 实现 。Dijango 的 MVT 设计 
让 数据 在 网 页 上 展示 非常 方便 。 

随 着 互联 网 的 普及 ， 用 户 对 互联 网 网 页 的 体验 有 了 越 来 越 多 的 要 求 ， 后 端 服务 在 处 理 
数据 的 同时 也 要 负责 页 面 的 泻 染 ， 后 端 服务 的 负担 有 些 过 重 ， 同 时 业务 的 快速 发 展 也 要 求 
用 户 体 验 和 业务 逻辑 进一步 解 厢 。 面 对 这 样 的 问题 ， 出 现 了 “前 后 端 ”分 离 的 思路 ， 我 们 
将 在 后 面 的 章节 谈 到 它 。 
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练习 一 : Web 模板 系统 一 般 有 哪儿 个 组 件 ? 
练习 二 : 使 用 模板 继承 完成 帮助 页 面 的 模板 编写 。 


第 6 章 表 单 


相信 大 家 一 定 有 过 这 样 的 经 历 : 去 企业 应 聘 或 者 去 银行 办 卡 的 时 候 , 工作 人 员 都 会 递 给 你 一 张 纸 ， 
让 你 填 上 自己 的 姓名 等 信息 。 你 填写 完 后 ， 通 过 一 个 窗口 把 纸张 递 过 去 ， 工 作 人 员 接 到 后 即 开始 处 
理 你 的 事情 。 

在 历史 上 ， 这 种 互动 的 形式 已 经 存在 了 相当 长 的 一 段 时 间 。 在 互联 网 兴起 后 ， 类 似 的 事情 也 发 
生 在 网 站 上 ， 只 不 过 呈现 给 用 户 的 页 面 被 称 为 表单 网 页 。 本 章 将 会 带 您 学 习 表单 网 页 的 知识 。 

本 章 主 要 涉及 的 知识 点 : 

@ 认识 表单 : 学 习 表单 的 作用 和 形式 。 

@ Django 的 表单 : 学 习 使 用 Django 的 表单 功能 。 


网 页 表单 又 叫 作 HTML 表单 ， 主 要 用 来 处 理 用 户 从 页 面 输入 发 送 到 服务 器 的 数据 。 网 
页 表单 通常 会 提供 复 选 框 、 单 选 按钮 和 文本 字段 ， 方 便 用 户 填写 各 种 形式 的 数据 。 


6.1.1 表单 元 素 


在 现实 场景 中 ， 用 户 在 电子 商务 网 站 上 输入 信用 卡 账 号 ， 或 者 在 搜索 网 站 上 输入 想 搜 
索 的 关键 字 ， 都 可 能 会 用 到 表单 。 

HTML 中 的 form 标签 用 来 标记 表单 。 这 个 标签 的 内 容 包括 用 户 输入 的 数据 、 数 据 被 提 
交 到 通信 终端 的 服务 器 URL、 提 交 数 据 的 方法 。 提 交 数 据 的 方法 一 般 是 GET 或 者 POST。 

表单 可 以 由 标准 的 图 形 用 户 界面 元 素 组 成 。 这 些 元 素 具 体 如 下 。 

@ text: 文本 输入 框 ， 允 许 用 户 输入 一 行文 本 。 

@@ E-mail: 电子 邮件 输入 框 ， 输 入 的 内 容 需 要 满足 电子 邮件 地 址 的 格式 。 

@ number: 数字 输入 框 ， 输 入 的 内 容 是 数字 。 

@@ password: 和 文本 输入 框 类 似 ， 不 过 出 于 安全 考虑 ， 用 户 输入 的 字符 一 般 会 被 “*” 

所 替代 。 


radio: 单 选 按钮 。 

file: 选择 一 个 文件 用 于 上 传 。 

Teset: 重 置 按钮 ， 单 击 之 后 ， 浏 览 器 会 将 表单 存储 的 数据 变 为 默认 值 。 

submit: 提交 按钮 ， 用 于 告诉 浏览 器 对 输入 的 数据 做 一 些 处 理 。 

textarea: 多 行文 本 输入 框 ， 和 text 类 似 ， 不 过 这 个 元 素 允许 用 户 输入 多 行文 本 。 
select: 下 拉 列 表 。 

让 用 户 输入 购物 喜好 的 示例 表单 如 下 : 


<form action="/user/info/", method="post"> 
<label for="name"> 请 输入 姓名 </label> 
<input id="name" type="text"> 
<label for="gender"> 男 </label> 
<input id="male" type="radio" name="gender" value="male"> 
<label for="female"> 女 </label> 
<input id="female" type="radio" name="gender" value="female"> 
<label for="other"> 其 他 </label> 
<input id="other" type="radio" name="gender" value="other"> 
<label for="color"> 选 择 你 最 喜欢 的 颜色 </1label> 
<select id="color"> 
<option value=""> 选 择 你 喜欢 的 颜色 </option> 
<option value="red"> 红 色 </option> 
<option value="yellow"> 黄 色 </option> 
<option value="blue"> 蓝 色 </option> 
</select> 
<label for="extra"> 附 加 说 明 </1label> 
<input id="extra" type="textarea"> 
<input type="submit" value="save"> 


</form> 

上 面 的 表单 中 包含 : 

@ 一 个 文本 框 ， 用 于 让 用 户 输入 姓名 。 

@ 一 对 单 选 按钮 ， 用 于 让 用 户 选 择 性 别 。 

@ 一 个 下 拉 选 择 框 ， 用 于 让 用 户 选择 喜欢 的 颜色 。 

@ 一 个 多 行文 本 框 ， 用 于 让 用 户 输入 一 些 附 加 的 信息 。 
@ 一 个 提交 按钮 ， 用 于 将 数据 发 送 到 服务 器 。 


当然 ， 网 页 表单 也 可 以 是 其 他 形式 ， 如 表单 可 以 是 网 格 形式 ， 每 个 单元 格 包 含 一 个 文本 
输入 元 素 。 表 单 还 可 以 是 树 形 ,每 个 层级 代表 一 个 种 类 , 上 层 元 素 代表 父 类 , 下 层 元 素 代表 子 类 。 

不 论 表 单 是 树 形 还 是 网 格 形式 ， 都 需要 网 页 的 JavaScript 脚本 能 够 将 正确 的 数据 发 送 到 
服务 端 ， 也 需要 服务 端 能 够 正确 地 处 理 这 些 数据 。 
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6.1.2 ”提交 数据 


填写 完 表单 后 ， 单 击 提交 按钮 。 表 单元 素 中 的 名 称 和 值 将 被 编码 并 使 用 GET 方法 或 
POST 方法， 通过 HTTP 请 求 发 送 到 服务 器 。 请 求 的 mime 类 型 默认 是 application/x-www- 
form-urlencoded， 在 使 用 POST 方法 时 ， 一 般 使 用 的 mime 类 型 是 multipart/form-data。 

如 果 请 求 的 方法 是 GET， 则 浏览 器 会 获取 action 值 (这 个 值 为 服务 器 终端 URL)， 后 
面 跟 上 一 个 “? ”， 再 将 表单 数据 集 添加 到 后 面 ， 形 成 最 终 的 请 求 ， 即 对 于 使 用 了 GET 方 
法 的 请 求 ， 表 单数 据 会 编码 在 URL 中 。 

在 GET 请 求 中 ， 会 对 数据 的 编码 做 一 些 修改 。 例 如 ，action 为 http: /Wwww.example. 
com/user info， 带 有 请 求 参 数 name=Wang hong、gender=male、hobby=swimming+reading， 
经 过 编码 后 的 结果 如 下 : 


http%3A%2F%2Fwww .example.com%2Fuser info%3Fname®%3DWang®%20Hong%26gener%®3 
Dmale®%26hobby%3Dswimming%2Breading 


那么 什么 时 候 应 该 使 用 GET 方法 ， 什 么 时 候 应 该 使 用 POST 方法 呢 ? 按照 HTTP 协议 
规范 ， 当 且 仅 当 表单 的 处 理 请 求 是 寡 等 请 求 时 ， 才 使 用 GET 方法 ， 通 常情 况 下 这 样 的 请 求 
纯粹 用 于 查询 ， 而 不 是 上 传 数 据 。 也 有 一 些 其 他 情况 ， 即 使 是 究 等 请 求 ， 也 应 该 使 用 POST 
方法 ， 如 请 求 的 URL 过 长 或 者 请 求 的 字符 中 带 有 非 ASCII 码 。 另 外 ， 当 表单 数据 集中 带 有 
敏感 信息 时 ， 使 用 POST 方法 会 比 GET 方法 安全 一 些 。 

在 浏览 器 上 ， 用 户 通过 检查 GET 请 求 的 URL， 可 以 得 知 请 求 的 表单 数据 。 用 户 将 完整 
的 请 求 保存 到 书签 中 ， 以 便 下 次 查询 。GET 请 求 可 能 会 被 浏览 器 缓存 ， 在 请 求 数据 不 经 常 
变动 的 情况 下 ， 使 用 缓存 能 带 来 更 快 的 体验 。 

在 服务 端 接收 请 求 后 ， 根 据 请 求 方法 的 不 同 ， 处 理 方式 也 不 同 。 两 种 请 求 方法 使 用 了 
不 同 的 编码 ， 因 此 服务 端 需要 使 用 不 同 的 解码 机 制 对 数据 进行 解码 后 再 做 下 一 步 的 处 理 。 


2 Django 表单 


开发 网 页 表单 是 一 件 麻烦 的 事情 。 在 不 借助 框架 的 情况 下 ， 开 发 者 需要 编写 表单 的 
HIML 代码 ， 在 服务 端 代 码 里 验证 并 清洗 输入 的 数据 。 如 果 数据 出 现 错误 ， 则 需要 重新 返 
回 带 有 错误 消息 的 表单 ， 告 知 用 户 哪 个 地 方 出 了 问题 ; 如 果 数 据 正常 ， 则 需要 处 理 用户 数 


据 后 ， 返 回 页 面 告知 用 户 表 单 提交 成 功 。 
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Django 提供 了 一 系列 的 工具 来 构建 表单 。 使 用 Django 构建 的 表单 可 以 很 方便 地 接受 来 
自用 户 的 输入 ， 对 数据 进行 处 理 后 ， 返 回响 应 。 使 用 Django 的 表单 不 仅 能 够 简化 和 自动 化 
表单 的 编写 ， 而 且 往往 比 开发 者 自行 编写 的 表单 更 安全 。 


6.2.1 处 理 流 程 


在 之 前 的 章节 中 ， 我 们 已 经 接触 了 Django 的 表单 处 理 。 先 来 回顾 一 下 这 个 流程 ， 视 图 
接受 一 个 请 求 ， 执 行 所 需 操作 ， 包 括 从 模型 中 读 取 数据 ， 生 成 并 返回 HTML 页 面 ， 生 成 页 


面 可 能 是 模板 加 上 下 文 泻 染 的 结果 。 


事实 上 ， 除 了 响应 用 户 的 请 求 外 ， 我 们 还 需要 处 理 用 户 提 交 的 数据 ， 并 在 出 现任 何 
错误 时 重新 显示 页 面 ， 这 就 是 表单 发 挥 作用 的 地 方 。Django 处 理 表单 的 工作 流程 如 图 6.1 


所 示 。 


服务 器 


验证 数据 
结束 重 定向 到 对 有 效 数据 
成 功 URL 进行 处 理 


图 6.1 Django 处 理 表 单 的 工作 流程 
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如 图 6.1 所 示 ，Django 的 表单 主要 做 了 6 件 事 。 

(1) 当 用 户 第 一 次 请 求 的 时 候 返 回 默认 的 表单 。 默 认 的 表单 可 能 包含 空 字段 ， 或 者 预 
先 填充 了 初始 值 , 如 将 某 个 时 间 字 段 设 置 为 当前 的 日 期 .此 时 ,Django 认为 该 表单 是 “未 绑 定 ” 
的 ， 因 为 表单 不 包含 用 户 输入 数据 。 

(2) 从 请 求 中 接受 数据 ， 将 数据 绑 定 到 表单 中 。 也 就 是 说 ， 当 需要 展示 表单 时 ， 直 接 
使 用 这 部 分 数据 ， 其 中 可 能 也 包含 一 些 错误 信息 。 

(3) 对 数据 进行 清理 和 验证 。 清 理 过 程 可 以 删除 输入 中 的 恶意 内 容 〈 如 无 效 的 字符 ) ， 
然后 将 输入 转换 为 Python 对 象 ， 验证 检查 值 是 否 适 合 该 字段 ， 如 检查 字符 的 长 度 ， 或 者 日 
期 是 否 在 某 个 范围 内 。 

(4) 如 果 检 测 到 用 户 输入 的 数据 无 效 ， 则 重新 显示 表单 ， 这 次 的 表单 包含 用 户 输入 的 
值 和 相关 的 错误 信息 。 

(5) 如 果 用 户 输入 的 信息 验证 有 效 ， 则 会 执行 必要 的 业务 逻辑 ， 如 将 数据 存储 到 数据 
库 、 发 送 电子 邮件 、 返 回 搜索 的 结果 或 者 上 传 一 个 文件 等 。 

(6) 完成 所 有 操作 后 ， 用 户 被 重 定向 到 另 一 个 页 面 。 


6.2.2” Form 类 


Django 表单 的 核心 组 件 是 Form 类 。 和 Model 类 相似 ，Form 类 抽象 了 表单 的 呈现 形式 
和 工作 方式 。Model 类 的 字段 可 以 映射 到 数据 库 表 字段 ， 类 似 地 ，Form 类 的 字段 可 以 映射 
到 HTML 用 户 界面 元 素 。Form 类 的 字段 也 是 类 ， 这 些 类 用 于 管理 表单 数据 ， 并 在 表单 数 
据 提 交 到 服务 器 后 执行 验证 工作 。 

回想 一 下 ， 在 泻 染 模板 时 ， 接 受 请 求 后 ， 我 们 在 视图 中 获取 数据 〈 如 请 求 数据 库 ) ， 将 
这 些 数据 传 入 模板 上 下 文 ， 然 后 使 用 模板 变量 将 这 些 数据 泻 染 成 HIML 文本 。 在 模板 中 泻 
染 表 单 和 演 染 其 他 类 型 的 对 象 几 乎 一 致 ， 不 过 也 存在 一 些 差别 。 

对 于 不 包含 数据 的 模型 对 象 ， 在 模板 泻 染 的 时 候 几 乎 没什么 用 。 对 于 不 包含 数据 的 表 
单 对 象 ， 模 板 非常 有 必要 去 泻 染 ， 因 为 我 们 希望 用 户 能 够 提交 自己 的 数据 。 

这 个 差别 会 反映 在 视图 代码 中 。 在 视图 中 处 理 模 型 对 象 时 ， 一 般 会 先 从 数据 库 中 读 出 
数据 来 初始 化 对 象 ， 而 在 处 理 表单 对 象 时 ， 直 接 在 视图 中 初始 化 就 行 。 

前 面 我 们 已 经 提供 了 一 个 表单 的 HTML 代码 ， 现 在 来 用 Django 实现 ， 代 码 如 下 : 


# forms .py 文件 
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from django import forms 
class UserInfoForm (forms .Form) : 
GENDER CHOICES = [ 性 别 选项 
("male', u' 男 '), 
('female'，u' 女 ')， 
('other'，u' 其 他 ') 


] 

COLOR CHOICES = [ # 颜色 选项 
(pod DR 
('yellow'，u' 黄 ')， 
(pluew ine) 

] 


name = forms.CharField (label=u' 姓 名 '，max length=100') # 姓名 
gender = forms.CharField (label=u' 性 别 '， 

widget=forms.RadioSelect (choices=GENDER CHOICES)) # 性 别 

color = forms.ChoiceField (choices=COLOR CHOICES) # 颜色 

extra = forms.CharField(label=u' 其 他 '，widget=forms.textarea)  # 其 他 


值得 注意 的 是 ， 上 面 的 表单 泻 染 结果 既 不 会 包含 form 标签 ， 也 不 会 包含 一 个 提交 按钮 ， 
这 些 必 须 在 模板 中 定义 。 

每 个 Form 对 象 都 会 包含 一 个 is_valid( ) 方法 ， 这 个 方法 会 检查 所 有 字段 。 当 调用 这 个 
方法 并 验证 通过 时 ， 会 返回 True， 并 且 将 表单 的 数据 复制 到 cleaned_data 属性 中 。 

通常 情况 下 ， 返 回 表单 页 面 和 处 理 表单 数据 的 视图 是 同一 个 。 这 样 做 可 以 复 用 相同 的 
逻辑 ， 使 代码 更 好 维护 。 视 图 代码 示例 如 下 : 


# views .py 文件 

from django.shortcuts import render 

from django.http import HttpResponseRedirect 
from .forms import UserInfoForm 

def get user info (request) : 


# 如 果 是 POST 方法 , 处 理 表单 数据 


if request.method == "POST' : 
form = UserInfoForm(request.POST) 
丰 验证 表单 数据 


if form.is valid(): 
# 可 以 在 个 代码 块 中 对 数据 进行 操作 
# 成 功 后 重 定向 到 新 的 页 面 
return HttpResponseRedirect ('/thanks/') 
# 如 果 是 其 他 方法 (GET 等 ) , 创建 一 个 空 模板 
Slses 
form = UserInfoForm() 
# 泻 染 模板 


return render (request, 'user info.html" pe i i 
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上 面 的 代码 表现 如 下 : 

如 果 请 求 的 方法 是 GET 方法 ， 则 创建 一 个 不 带 数 据 的 UserInfoForm 对 象 ， 这 个 对 象 将 
在 模板 中 泻 染 成 一 个 表单 页 面 。 如 果 请 求 的 方法 是 POST 方法 ， 则 使 用 请 求 携带 的 数据 初 
始 化 一 个 UserInfoForm 对 象 ， 这 个 过 程 称 为 “ 绑 定 数据 到 表单 对 象 ”， 创 建 的 对 象 是 一 个 
绑 定 的 表单 对 象 。 

调用 is_valid( ) 方法 对 数据 进行 验证 ， 如 果 返 回 结果 不 为 True， 则 使 用 模板 对 该 对 象 进 
行 泻 染 。 此 时 泻 染 的 结果 不 再 为 空 ， 而 是 包含 带 有 用 户 提交 的 数据 和 用 户 需要 修正 部 分 的 
提示 信息 。 

如 果 is_valid( ) 方法 返回 True， 那 么 可 以 在 表单 对 象 的 cleaning data 属性 中 找到 所 有 
经 过 验证 的 表单 数据 。 接 下 来 可 以 使 用 这 些 数据 来 处 理 业务 逻辑 ， 如 将 数据 存储 到 数据 库 ， 
或 者 发 送 一 封 电子 邮 件 。 完 成 业务 逻辑 后 ， 一 般 会 向 浏览 器 发 送 HTTP 重 定向 请 求 ， 让 其 
跳 转 到 处 理 成 功 的 页 面 。 

在 模板 中 需要 写 的 代码 并 不 会 很 多 ， 最 简单 的 示例 如 下 : 


<form action="/user/info", method="post"> 
{%.csfr token %} 
{{ form }} 
<input type="submit" value="save"> 
</form> 


6.2.3 ModelForm 类 


很 多 时 候 ， 表 单 的 字段 和 数据 库 的 字段 是 紧密 关联 的 。 在 业务 代码 中 获取 字段 ， 然 
后 将 相同 的 字段 存 入 数据 库 可 能 被 认为 是 “ 嘿 唆 ”的 。 例 如 ， 从 上 传 商品 的 表单 页 面 中 获 
取 新 建 商品 的 title 字段 和 description 字段 ， 验 证 数据 后 ， 创 建 商 品 模 型 的 对 象 ， 同 样 使 用 
title 字段 和 description 字段 初始 化 。 

出 于 简化 逻辑 的 考虑 ，Django 允许 从 一 个 模型 中 创建 一 个 表单 类 ， 新 建 的 表单 类 通过 
继承 ModelForm 类 和 定义 模型 属性 来 与 模型 关联 起 来 。 示 例 代码 如 下 : 


from django.forms import ModelForm 
from product.models import Product 


class ProductForm(ModelForm): 
class Meta: 


Product ## 关联 到 模型 类 


["title', "description', "attributes', "date_ created'] 


model 
fields 


在 验证 模型 表单 时 , 需要 进行 两 步 操作 。 第 一 步 是 做 验证 表单 , 第 二 步 是 验证 模型 对 象 。 
验证 表单 会 调用 is_valid( ) 方法 ， 就 像 验证 普通 表单 一 样 。 验 证 模型 调用 clean( ) 方法 ， 这 
个 方法 会 调用 模型 类 的 名 lL_clean( ) 方法 。 

ModelForm 类 有 save( ) 方法 。 这 个 方法 会 将 表单 中 绑 定 的 模型 数据 保存 在 数据 库 中 。 
ModelForm 的 子 类 接受 一 个 模型 对 象 作 为 关键 字 ， 如 果 参 数 包含 了 模型 对 象 ， 则 save( ) 方 
法 会 更 新 这 个 对 象 ， 如 果 没 有 传 入 模型 对 象 ， 则 save( ) 方法 会 创建 指定 模型 的 对 象 。 示 例 
代码 如 下 : 


>> from product.models import Product 

>> from product.forms import ProductForm 

# 从 POST 数据 中 创建 一 个 表单 对 象 

>> £ = ProductForm(request.POST) 

# 保存 一 个 商品 对 象 

>> new product = f.save() 

# 传 入 一 个 存在 的 商品 对 象 , 使 用 POST 的 数据 更 新 该 对 象 

>> one product = Product.objects.get (pk=1) 

>> £ = ProductForm(request .POST, instance=one product) 
>> f.save() 


如 果 表 单 对 象 没 有 被 验证 ， 则 调用 save( ) 方法 会 检查 form.errors 来 验证 表单 。 如 果 数 
据 没 有 通过 校 验 ， 则 会 抛 出 ValueError 异常 。 


6.2.4 ”表单 集合 


在 需要 提交 多 个 表单 的 页 面 中 ， 若 用 户 多 次 单 击 “ 提 交 ” 按 钮 ， 则 可 能 会 给 其 带 来 
不 好 的 体验 ;有 了 时候 多 个 表单 可 能 存在 业务 上 的 联系 ， 一 起 提交 这 些 表单 是 有 必要 的 。 
Django 提供 了 一 些 工具 来 帮助 管理 同一 个 页 面 上 的 多 个 表单 。 

例如 ， 用 户 想 要 同时 创建 多 个 商品 ， 可 以 使 用 下 面 的 代码 轻松 实现 : 


>> from django.forms import forset factory 
>> ProductFormSet = formset factory(ProductForm) 


执行 上 面 的 代码 ， 即 可 创建 一 个 名 为 ProductFormSet 的 表单 集合 。 遍 历 这 个 集合 ， 然 
后 像 使 用 常规 表单 一 样 操作 集合 的 每 个 元 素 。 
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>> formset = ProductFormSet () 
>> for form in formset: 
print (form.as table()) 


formset_factory 函数 可 接受 一 些 额外 的 参数 。 例 如 ， 执 行 下 面 的 代码 可 创建 一 个 包含 两 
个 表单 的 集合 : 


>> ProductFormSet = formset factory(ProductForm, extra=2) 


可 以 为 表单 集合 中 的 每 个 表单 设置 初始 值 ， 这 会 大 大 提高 表单 集合 的 可 用 性 ， 节 省 不 
少 工作 ， 如 下 面 的 例子 


>> ProductFormSet = formset factory (ProductForm, extra=2) 
>> import datetime 
>> from product.forms import ProductForm 
>> formset = ProductFormset (initial=[ 
{'title' : u' 商 业 产 品 '， 
"description': u' 简 单 的 产品 描述 '， 
'date created': datetime .date.today() } 
el 


对 表单 集合 的 验证 和 对 单个 表单 的 验证 差不多 。 表 单 集合 也 有 一 个 is_valid 方法 ， 调 用 
这 个 方法 可 以 对 多 个 表单 发 起 验证 ， 非 常 方便 。 
在 视图 和 模板 中 使 用 表单 集合 和 使 用 表单 的 方式 相似 。 示 例 代码 如 下 


# product/views.py 文件 
from django.forms import formset factory 
from django.shortcuts import redner to _ response 
from product.forms import ProductForm # 引入 表单 对 象 
def manage products (request) : 
ProductSet = formset factory (ProductForm)  # 创建 商品 表单 集合 
if request.method == 'POST' : 
formset = ProductSet (request .POST, request .FILES) 
if formset.is valid(): 
# 数据 验证 通过 后 处 理 一 些 业 务 逻 辑 
pass 
else: 
formset = ProductFormset () 
# 返回 泻 染 模板 


return render to response('manage products.html', "formset' : formset) 


# manage products.html 文 件 
<form method="post" action=""> 
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和 formset .management form }} 
<table> 
{$s for form in formset $%} 
{{ form }} 
{SS endfor %} 
</table> 
</form> 


在 完成 数据 验证 及 数据 处 理 后 , 会 重 定向 到 一 个 新 的 请 求 , 这 样 可 以 避免 重复 提交 表单 ， 
但 会 导致 整个 页 面 的 刷新 。 用 户 不 太 喜 欢 刷 新 页 面 ， 因 为 这 有 时 意味 着 重新 加 载 页 面 所 需 
要 的 所 有 资源 ， 需 要 更 多 的 等 待 时 间 。 这 时 候 就 可 以 使 用 AJAX 技术 来 优化 用 户 体验 。 


6.3.1 AJAX 技 术 


AJAX (异步 JavaScript 和 XML 的 简称 ) 是 一 组 Web 开发 技术 ， 用 来 在 客户 端 创建 异 
步 Web 应 用 程序 。Web 应 用 程序 使 用 AJAX 可 以 异步 从 服务 器 发 送 和 接收 数据 ， 而 不 会 干 


扰 现 有 页 面 的 显示 和 行为 。 
这 项 技术 将 数据 交换 和 数据 展示 解 耦 ， 基 于 AJAX 技术 用 户 案 国 
的 网 页 可 以 动态 地 更 改 网 页 的 显示 内 容 ， 而 无 须 重新 加 载 整 个 。 “调用 ThrML+tCss 
JavaScript y 数据 
页 面 。 AJAX 引 擎 
虽然 AJAX 名 字 中 带 有 XML, 但 是 在 现实 的 开发 场景 中 ， (JavaScrip) 
数据 交互 党 党 使 用 JSON 格式 ， 而 不 是 XML 格式 。 HTTP 请 求 SR 
开发 中 常常 用 JavaScript 中 的 XMLHttpRequest 对 象 来 执 y 数据 
行 AJAX。AJAX 的 执行 流程 如 图 6.2 所 示 。 服务 器 
AJAX 包含 了 下 面 几 种 技术 。 下 
@ HTML 和 CSS 技术 : 用 于 展现 页 面 。 Y 
文档 对 象 模型 (DOM ) : 用 于 动态 显示 数据 。 数据 库 


XMLHttpRequest 对 象 : 用 于 通信 。 


@ 
@ JSON 或 者 XML 格式 : 用 于 服务 端 和 客户 端 交换 数据 。 图 6.2 AJAX 的 执行 流程 
© 
@@ JavaScript 语 言 : 将 上 面 的 技术 整合 起 来 。 
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6.3.2 动态 表单 


在 表单 中 引入 AJAX 可 以 带 来 如 下 好 处 。 

@ 减少 服务 器 发 回 的 数据 量 。 

@ 只 泻 染 页 面 的 部 分 内 容 ， 提 升 客户 端 性 能 。 
@ 减少 了 泻 染 未 更 改 部 分 所 花费 的 时 间 。 

现在 来 实现 一 个 简单 的 动态 表单 。 示 例 代 码 如 下 : 


# views .py 文件 
from django.shortcuts import redirect 
from django.shortcuts import render 
from product.models import Product 
from product.forms import ProductModelForm 
def product info(request, pk): 
product = Product.objects.get (pj=pk) 
if request.is ajax(): 
template = "form.html'" 
else: 
template = "page.html'" 
if request.method == "POST": 
form = ProductModelForm (request .POST, instance=product) 
if form.is valid(): 
form.save() 
if not request.is ajax() : 
return redirect('/success/page') 
elses: 
form = ProductModelForm(instance=product) 
return render(request, template, {'form': 'form’'}) 


示例 代码 逻辑 如 下 : 如 果 请 求 是 一 个 AJAX 请 求 ， 那 么 返回 并 演 染 表单 部 分 ， 如 果 请 
求 不 是 一 个 AJAX 请 求 ， 那 么 重新 加 载 整个 页 面 。 
接 下 来 是 模板 代码 ， 示 例如 下 : 


# form.html 文 件 

<form action="/path/to/url" method="POST" class="dynamic-form"> 
{%% csrf token %} 
{t form }} 
<button type="input"> 提交 </button> 

</form> 


# page.html 文 件 
<% extends '‘'base.html' %> 
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{$$ block main 村 } 
{$$ include 'form.html' $} 
{ 当 endblock %} 


{$$ block script %} 
<script> 
${document}.on('submit', 'form.dynamic-form', function (form){ 
Var $form = $ (form); 
$.ajax({ 
type: form.method, 
url: form.action, 
data: $form.serialize(), 
success: function(data) { 
$form.replace (data); 
} 
]) 
}) 7 
rip 
{$$ endblock %} 


这 是 一 个 非常 简单 的 例子 ， 不 过 只 完成 了 基本 的 功能 。 其 实 借助 AJAX 不 仅 可 以 动态 
演 染 表单 ， 而 且 可 以 做 更 多 的 事情 。 我 们 会 在 后 面 的 章节 继续 讲解 相关 内 容 。 


全 自动 区 分 计算 机 和 人 类 的 公开 图 灵 测试 《CAPTCHA) 俗称 验证 码 ， 是 一 种 区 分 用 户 
是 计算 机 还 是 人 的 自动 程序 。 

在 互联 网 注册 、 登 录 、 发 帖 、 投 票 等 应 用 场景 中 , 都 存在 被 机 器 人 刷 造 成 各 类 损失 的 风险 。 
如 果 不 对 各 类 机 器 垃圾 行为 加 以 防范 ,“ 灌 水 ”、 垃圾 注册 、 恶 意 登录 、 刷 票 、“ 撞 库 及 “ 羊 
毛 党 ”等 用 户 行为 一 旦 发 生 ， 将 对 产品 自身 发 展 和 用 户 体验 造成 极 大 的 影响 。 

很 多 网 站 的 做 法 是 在 上 述 的 应 用 场景 中 采用 验证 码 ， 以 防范 攻击 。 验 证 码 的 工作 原理 
是 生成 一 个 可 以 由 计算 机 来 评判 的 问题 ， 这 个 问题 只 有 人 类 才能 解答 。 由 于 计算 机 无 法 解 
答 这 个 问题 ， 因 此 能 够 解答 出 这 个 问题 的 用 户 就 可 以 被 认为 是 人 类 。 

验证 码 比较 简单 的 实现 是 生成 一 张 包 含 扭 扭曲 曲 字符 的 图 片 ， 用 户 在 看 清楚 图 片上 的 
字符 后 将 自己 识别 的 字符 输入 一 个 文本 框 ， 在 提交 数据 的 时 候 一 起 提交 上 去 。 服 务 器 接 到 
请 求 后 ， 对 验证 码 进行 验证 : 如 果 通 过 ， 则 继续 对 数据 进行 处 理 ， 如 果 不 通过 ， 则 返回 “ 验 
证 码 错 误 ” 类 似 的 信息 。 
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6.4.1 表单 验证 但 


开源 社区 有 很 多 Django 验证 码 的 实现 工具 ， 我 们 这 里 选取 django-simple-captcha 来 实 
现 一 个 简单 的 验证 码 。 
首先 安装 该 第 三 方 库 ， 在 命令 行 中 输入 如 下 命令 : 


pip install django-simple-captcha 


需要 注意 的 是 ，django-simple-captcha 依赖 PIL 和 Pillow 生成 图 像 ， 需 要 在 系统 中 安装 
libz 库 、jpeg 库 和 libfreetype 库 。 

然后 将 captcha 添加 到 settings.py 文件 中 的 INSTALLED_APPS 列表 中 。 接 下 来 执行 下 
面 的 命令 将 captcha 模型 应 用 到 数据 库 ， 并 在 urls 中 添加 captcha 相关 的 配置 。 


# 命令 行 
Python manage.py migrate 


# urls.py 文 件 
urlpatterns += [ 
url(r'^captcha/', include('captcha.urls')), 


1 


在 代码 中 应 用 captcha 相当 简单 。 在 定义 表单 类 后 ， 添 加 一 个 CaptchaField 字段 即 可 以 。 
示例 代码 如 下 : 


from django import forms 
from product.models import Product 
from catpcha.fields import CaptchaField # 引入 CaptchaField 


class CaptchaProductForm(forms.ModelForm): 
captcha = CaptchaField() # 验证 码 字段 
class Meta: 
model = Product 


视图 代码 几乎 不 需要 变动 ， 按 照 之 前 的 逻辑 对 数据 进行 校 验 即 可 。 如 果 用 户 响应 中 没 
有 提供 有 效 的 验证 码 ， 则 表单 会 抛 出 ValidationError 异常 。 示 例 代码 如 下 : 


def update product (request): 
if request.method == "POST": 
form = CaptchaProductForm(request .POST) 
if form.is valid(): 


# 如 果 通 过 验证 , 说明 验证 码 正 确 ,数据 也 正确 
human = True 
elses: 
# 生成 带 有 验证 码 的 表单 
form = CaptchaProductForm() 
return render to response('update product.html', locals()) 


上 面 的 视图 代码 和 之 前 的 例子 几乎 没有 差别 。 验 证 码 相关 的 功能 已 经 被 封装 在 了 表单 
类 中 。 在 接受 GET 请 求 时 ， 视 图 返回 带 有 验证 码 的 页 面 ， 在 接受 POST 请 求 时 ， 调 用 is_ 
valid( ) 方法 会 对 验证 码 一 同 校 验 。 


6.4.2 AJAX 验证 码 


captcha 同样 可 以 用 于 AJAX 表单 。 示 例 代码 如 下 : 


from django.views.generic.edit import CreateView 

from captcha.models import Captchastore # 用 于 生成 验证 码 
from captcha.helpers import captcha image url # 获取 验证 码 链接 
from django.http import HttpResponse 

import json 


class AjaxProductForm(CreateView): 
def form invalid(self, form): # 验证 码 不 正确 
if self.request.is ajax() : # 判断 是 否 为 AJAX 请 求 
cptch key = Captchastore.generate key() # 生成 验证 码 
json response = { 
vetatus: DO # 表示 请 求 不 成 功 
"for_ errors': form.errors, # 表单 的 错误 信息 
"new_cptch key': cptch key， # 验证 码 
'new_cptch image': captcha image url (cptch key) # 验证 码 链接 
} 
return HttpResponse (json.dumps (json_response), content type='application/ 
json') 
def form valid(self，form) : ”# 验证 码 正确 
form.save() 
if self.request.is ajax(): # 判断 是 否 为 AJAX 请 求 
cptch key = Captchastore.generate key () # 生成 验证 码 
json response = { 
otatus .se # 表示 请 求 成 功 
"new_cptch key': cptch key， 二 验证 码 
"new_cptch image': captcha image Url (cptch key) ， 间 验证 码 链接 
} 
return HttpResponse (json-dumps (json_response), content type="'application/ 
json') 
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有 时 候 会 出 现 用 户 无 法 认 清 生 成 的 验证 码 的 情况 ， 为 了 应 对 这 种 情况 ， 网 站 一 般 会 在 验 
证 码 旁 边 加 上 一 个 “刷新 ”按钮 , 用户 单 击 “ 刷 新 ”按钮 ， 就 能 从 服务 器 重新 获得 一 个 二 维 码 。 
为 了 刷新 验证 码 而 刷新 整个 页 面 ， 对 于 用 户 体验 来 说 这 并 不 是 很 好 ， 最 好 是 只 刷新 验 
证 码 ， 网 页 的 其 他 部 分 不 刷新 。 实 现 这 样 部 分 刷新 的 功能 要 在 网 页 使 用 AJAX， 需 要 编写 
一 些 JavaScript 代码 来 监听 “提交 ”按钮 的 点 击 事件 , 这 里 采用 jQuery 编写 一 个 简单 的 例子 : 


# 模板 代码 
<form action="." method="POST"> 
{{ form }} 
<input type="submit" /> 
<button class="js-captcha-refresh"> 
</form> 
# JavaScript 代码 
$(" .js-captcha-refresh") .click(function(){ 
$form = $ (this) .parents('form'); 
$.getJSON($ (this) .data('url'), {}, function(json) { 
// 获取 验证 码 和 验证 码 图 片 链接 
$(".captcha") .attr("src", result) 
KK 
return false; 


本 章 讲解 了 Django 的 表单 系统 。 表 单 用 于 用 户 在 网 站 上 提交 数据 ， 这 部 分 数据 可 用 来 
帮助 网 站 了 解 用 户 ， 提 升 用 户 的 体验 ， 是 网 站 非常 重要 的 一 部 分 。 

Django 提供 了 非常 好 用 的 工具 来 创建 和 管理 表单 , 使 用 这 些 工具 能 够 迅速 地 开发 出 表单 页 面 。 

随 着 互联 网 的 发 展 ， 用 户 对 网 站 体验 要 求 越 来 越 高 ， 同 时 移动 设备 的 流行 带 来 了 新 的 
技术 和 挑战 。 因 此 ， 在 面向 终端 用 户 的 网 页 中 ， 表 单 的 使 用 已 经 越 来 越 少 〈 我 们 将 在 后 面 
的 章节 中 讲解 这 部 分 内 容 ) 。 不 过 ， 在 后 台 管理 页 面 中 ， 表 单 依然 有 用 武之 地 。 


w 练 “ 习 


练习 一 : Django 表单 的 工作 流程 是 什么 ? 
练习 二 : AJAX 技术 能 带 来 什么 好 处 ? 
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Web 2.0 带 来 了 动态 网 站 。 不 同 的 用 户 在 同一 个 页 面 看 到 的 信息 可 能 是 完全 不 同 的 。 每 次 用 户 

请 求 页 面 时 ，Web 服务 器 都 会 进行 各 种 计算 来 创建 访问 者 看 到 的 页 面 。 这 些 计算 有 查询 数据 库 、 模 
泻 染 和 各 种 业务 逻辑 。 

和 最 初 Web 1.0 服务 器 从 文件 中 读 取 网 页 内 容 并 返回 相 比 ， 动 态 网 站 的 计算 量 要 大 得 多 ， 所 需 
要 的 资源 要 更 多 、 更 昂贵 。 对 于 大 多 数 用 户 来 说 ， 这 可 能 不 构成 问题 ,但 是 对 于 比较 大 的 网 站 来 说 ， 
这 是 一 个 必须 考虑 的 问题 ， 这 时 缓存 就 有 用 武之 地 了 。 

本 章 主 要 涉及 的 知识 点 : 

@ 认识 缓存 : 学 习 什么 是 缓存 及 缓存 的 多 种 形式 。 

@ Django 中 的 缓存 : 学 习 如 何 使 用 Django 提供 的 缓存 APl。 

@ 缓存 的 写 入 策略 : 学 习 缓 存 写 入 策略 及 其 应 用 场景 。 

@ 分 布 式 缓存 系统 : 学 习 高 可 用 缓存 架构 及 其 在 Django 中 的 应 用 。 


在 计算 机 系统 中 ， 为 了 提升 性 能 ， 一 些 软件 或 者 硬件 会 将 数据 保存 下 来 ， 在 未 来 请 求 
这 些 数据 时 能 够 快速 返回 。 存 储 在 缓存 中 的 数据 可 能 是 较 早 计算 的 结果 ， 也 可 能 是 其 他 数 
据 的 副本 。 

在 缓存 中 如 果 找 到 了 数据 ， 我 们 称 之 为 “命中 ”; 没有 找到 数据 ， 我 们 称 之 为 “未 命 
中 ”。 从 缓存 中 读 取 数据 往往 比 从 数据 源 中 读 取 数据 或 者 计算 数据 更 快 。 命 中 的 次 数 越 多 
命中 率 越 高 ， 往 往 系统 响应 的 速度 就 越 快 。 

缓存 有 多 个 种 类 ， 本 节 将 介绍 Web 缓存 。 顾 名 思 义 ，Web 缓存 主要 用 来 临时 存储 Web 
数据 〈 如 网 页 、 图 像 和 其 他 类 型 的 Web 多 媒体 ) ， 以 减少 服务 器 的 延迟 ， 提 升 用 户 体验 。 

Web 缓存 可 用 于 各 种 系统 ， 按 照 Web 内 容 存 储 的 位 置 可 分 为 客户 端 缓存 和 服务 端 缓存 。 


7.1.1 ”Redis 缓 存 


Redis 是 一 个 开源 的 键 值 内 存 存 储 系统 ， 可 以 作为 缓存 中 间 件 使 用 ， 在 互联 网 企业 中 非 
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常 流行 。 它 支持 多 种 数据 结构 ， 如 字符 串 、 散 列 、 列 表 、 集 合 、 带 有 范围 查询 的 排序 集 等 。 
下 面 我 们 来 了 解 一 下 如 何在 Python 中 使 用 Redis。 


这 里 假设 已 经 有 了 一 个 Redis 服务 ， 不 妨 认 为 这 个 服务 监听 本 机 的 127.0.0.1 的 6379 端 


口 。 首 先 安装 redis-py， 这 是 一 个 Python 的 Redis 客户 端 ， 提 供 了 操作 Redis 的 接口 。 


# pip install redis 
Collecting redis 

Downloading https://files.pythonhosted.org/packages/ac/a7/cffl0cc5f11 
80834a3ed564d148fb4329c989cbblf2e196fc9al0fa07072/redis-3.2.1-py2.py3- 
none-any.whl (65kB) 

1005 | 国 回 面 面 面 国 国 面 面 面 面 面 硬 面 面 面 面 面 面 面 面 国 面 面 面 面 面 面 面 硬 面 图 | 7 1) 3505/: 
Installing collected packages: redis 
Successfully installed redis-3.2.1 


使 用 redis-py 的 一 般 流 程 : 新 建 到 Redis 服务 的 连接 ， 调 用 redis-py 的 接口 向 Redis 发 


送 请 求 ， 根 据 请 求 的 结果 以 决定 下 一 步 的 业务 逻辑 。 下 面 的 示例 将 使 用 Python 命令 行 模式 
来 展示 如 何 使 用 redis-py: 


>>> import redis 
>>> r = redis.Redis (host='127.0.0.1'，port=6379) # 创建 到 Redis 服 务 的 连接 


>>> r.set('foo', 'bar') # 将 foo 的 值 设置 为 bar 
True # 返回 True 表 示 操 作成 功 
>>> r.get('foo') # 获取 foo 的 值 

aren # foo 的 值 为 par, 和 set 操 作 设置 的 值 一 致 
>>> r.expire('foo', 10) # 设置 foo 的 值 在 10s 后 过 期 
True # 操作 成 功 

>>> r.get('foo0') # 过 10s 后 再 执行 get 操 作 
>>> 

>>> r.set('foo'，'bar'，10)  # 调用 set 方 法 传 入 过 期 时 间 
True 

>>> r.get('foo') 

"bar" 


>>> r.get('foo') 


上 面 的 示例 在 创建 连接 后 获得 一 个 Redis 对 象 ， 调 用 对 象 的 set 方法 设置 了 键 为 foo、 


值 为 bar 的 键 值 对 ， 用 此 方法 返回 True; 然后 调用 对 象 get 方法 获取 键 为 foo 的 值 ， 返 回 
bar。 另 外 ， 通 过 调用 expire 方法 设置 过 期 时 间 10s，10s 后 再 次 调用 get 方法 ， 将 无 法 像 
之 前 一 样 获得 bar。 也 可 以 在 调用 set 方法 时 传 入 过 期 时 间 ， 让 存 入 的 数据 在 一 定时 间 后 


Redis 支持 多 种 数据 类 型 ， 这 为 开发 页 面 带 来 了 不 少 便利 ， 如 散 列 。 下 面 是 一 个 使 用 散 


列 数据 结果 的 例子 : 
>>> r.hset ("user:1",，"gender"，"male") ”# 调用 hset 方 法 设置 一 个 散 列 数据 
1L 
>>> r.hget ('user:1', "gender") # 调用 hget 方 法 获取 gender 的 值 
"male'" 
>>> r.hmset ("user:1", {"username": "tom", "password": "tompass"}) # 同 
时 设置 多 个 键 
True 
>>> r.hgetall('user:1') # 获取 user:1 的 所 有 数据 
{'username': 'tom', "gender': 'male'，"password': 'tompass'} 


散 列 类 型 常 被 用 来 表示 对 象 ， 使 用 起 来 很 方便 。 上 面 的 例子 展示 了 调用 hset 方法 设置 
一 个 键 值 ， 调 用 hget 方法 获得 一 个 键 值 。 在 需要 同时 设置 多 个 键 的 时 候 ， 可 以 调用 hmset 
方法 ， 同 样 地 ， 可 以 调用 hgetall 方法 获取 user: 1 的 所 有 数据 。 

在 Python 语言 中 , 列表 是 常用 的 数据 结构 , Redis 中 也 有 对 应 的 数据 结构 。 示 例 代 码 如 下 : 


>>> r.lpush ("active users", "tom") # 结果 为 ["tom"] 

1L 

>>> r.lpush ("active users"，"jerry")  # 结果 为 ["jerry"，"tom"] 

2L 

>>> r.rpush("active users", "may") # 结果 为 ["jerry"， "tom"， "may"] 
3L 


>>> r.lrange ("active users"，0，1000) # 获取 范围 内 的 列表 记录 

['jerry', "tom'， "may'] 

>>> r.rpop("active users") # 取出 最 右边 的 值 , 列表 中 的 数据 为 ["jerry"，"tom"] 

"may， 

>>> r.lpop ("active users") ”# 去 除 最 左边 的 值 ， 列 表 中 的 数据 为 ["tom"] 

"Jerry'" 

上 面 的 代码 展示 了 使 用 Redis 列表 的 常用 操作 。 调 用 lpush 方法 在 列表 头 插入 数据 ， 调 
用 rpush 方法 在 列表 尾 插入 数据 。 调 用 rpop 方法 取出 尾部 数据 ;调用 lpop 方法 取出 头 部 
数据 。 调 用 lrange 方法 会 列 出 一 个 范围 内 的 数据 。 


和 Python 一 样 ，Redis 支持 集合 类 型 ， 集 合 是 一 个 无 序 的 字符 串 集 合 ， 如 下 面 的 代码 : 


>>> r.sadd("databases", "mysql") # 向 集合 databases 中 加 入 mysql 
四 坦 操作 成 功 
>>> r.sadd("databases", "redis") # 向 集合 databases 中 加 入 redis 
1 # 操作 成 功 
>>> r.sadd("databases", "redis") # 向 集合 databases 中 加 入 redis 
0 # 操作 失败 


>>> r.smembers ("databases") # 列 出 databases 集 合 
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set(['redis', 'mysql']) 

>>> r.srem("databases", "redis") # 删除 集合 中 的 某 个 元 素 

1 # 操作 成 功 

上 面 的 代码 展示 了 使 用 集合 的 常见 操作 。 调 用 sadd 方法 往 集合 中 添加 一 个 元 素 ， 调 用 
srem 方法 从 集合 中 删除 一 个 元 素 ， 调 用 smembers 方法 列 出 集合 的 所 有 元 素 。 集 合 元 素 不 
允许 重复 ， 因 此 加 入 一 个 已 经 存在 的 元 素 时 会 返回 0， 这 个 方法 可 以 用 来 测试 元 素 是 否 在 
集合 中 。 

Redis 还 支持 有 序 集合 ， 这 个 数据 类 型 和 集合 很 像 ， 也 是 不 重复 的 字符 串 集合 。 不 同 的 
是 ,每 个 元 素 都 有 一 个 “分 数 ”, 集合 内 的 元 素 按照 这 个 “分 数 ” 进 行 排序 。 示 例 代码 如 下 : 


>>> r.zadd ("players", {"playerl": 1}) # 加 入 playerl, 分 数 为 1 
bh 


>>> r.zadd ("players", {"player2": 5}) # 加 入 player2, 分 数 为 5 
让 


>>> r.zrange ("players"，0，10，withscores=True) # 按照 分 数 排序 并 展示 元 素 和 分 数 
bplayerl M0 (Player2r S00) 


7.1.2 HTTP 缓存 


一 般 情 况 下 ，HTTP 缓存 通常 仅 限 于 对 GET 请 求 的 响应 。 绥 存 的 键 值 通常 由 请 求 方法 
和 目标 URI 组 成 。 下 面 的 页 面 通 常 是 会 被 缓存 的 : 

@ 对 GET 请 求 返回 状态 码 为 200 的 响应 。 

@ 状态 码 为 301 (永久 重 定向 ) 的 响应 。 

@ 状态 码 为 404 的 响应 。 

@ 状态 码 为 206 的 响应 。 

HTTP 协议 定义 了 Cache-Control 头 ， 用 于 指定 请 求 和 响应 的 缓存 机 制 。 通 过 为 这 个 头 
设置 不 同 的 值 可 以 使 用 不 同 的 缓存 策略 。 

@ no-store: 禁止 进行 缓存 。 不 缓存 任何 请 求 和 响应 ， 每 次 请 求 都 应 该 发 送 到 服务 器 ， 


并 且 下 载 完整 响应 。 
@ no-cache: 强制 确认 缓存 。 不 管 本 地 副本 是 否 过 期 ， 在 使 用 本 地 副本 前 ， 到 源 服务 
器 进行 有 效 性 校 验 。 


@ public: 公共 缓存 。 响 应 可 以 被 中 间 人 缓存 ， 中 间 人 如 中 间 代 理 、CDN 等 。 
@ private: 私有 缓存 。 缓 存 只 供 单个 用 户 使 用 ， 中 间 人 不 能 缓存 。 
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@ max-age: 资源 被 认为 是 新 鲜 的 最 长 时 间 。 这 是 一 个 比较 重要 的 指令 , 例如， 通过 
设置 Cache-Control: max-age=2592000， 服 务 器 告诉 客户 端 这 个 资源 30 天 后 过 期 。 
对 于 不 怎么 变动 的 文件 来 说 ， 这 个 值 应 该 尽量 设置 得 大 一 些 。 

@ must-revalidate: 必须 要 验证 。 在 本 地 副本 过 期 前 ， 可 以 使 用 本 地 副本 。 本 地 副本 一 
旦 过 期 ， 必 须 去 源 服务 器 进行 有 效 性 校 验 。 

一 般 来 说 ， 缓 存 被 用 到 的 次 数 越 多 ， 网 站 的 响应 能 力 和 性 能 就 越 好 。 有 人 会 认为 ， 那 
就 应 该 将 缓存 的 时 间 设 置 得 越 大 越 好 。 对 于 那些 更 新 时 间 固 定 的 资源 来 说 , 这 种 做 法 没 问题 ， 
可 以 将 过 期 时 间 设 置 得 接近 更 新 的 周期 。 但 是 还 存在 资源 更 新 不 那么 频繁 的 情况 ， 这 在 网 
站 中 是 很 常见 的 。 例 如 ，JavaScript 文件 和 CSS 文件 更 新 的 周期 就 很 不 固定 。 当 这 些 文件 更 
新 的 时 候 ， 我 们 希望 浏览 器 能 够 马上 响应 ， 让 用 户 能 够 立即 用 到 新 的 功能 。 

缓存 的 资源 到 期 后 ， 需 要 对 其 进行 验证 或 再 次 获取 。 需 要 注意 的 是 ， 只 有 在 服务 器 提 
供 强 验证 器 或 弱 验 证 器 时 才能 进行 验证 。 

ETag 可 以 作为 强 验证 器 使 用 。 如 果 服 务 器 响应 中 带 有 ETag 头 ， 则 客户 端 可 以 在 请 求 
头 中 带 [ENone-Match 头 ， 以 便 验 证 缓存 。 

Last-Modified 可 以 作为 弱 验 证 器 使 用 。 如 果 响 应 中 带 有 Last-Modified 头 ， 则 客户 端 可 
以 在 请 求 中 带 Modified-Since 头 ， 以 验证 缓存 。 

当 客 户 端 发 出 验证 请 求 时 ， 服 务 器 可 以 忽略 验证 请 求 ， 并 返回 状态 码 为 200 的 响应 ， 
该 响应 带 有 完整 的 资源 ， 也 可 以 返回 状态 码 为 304 的 响应 ， 该 响应 不 带 有 内 容 ， 用 于 指示 
浏览 器 使 用 该 资源 的 缓存 。 

HTTP 还 会 用 到 Vary 字段 ， 以 指示 下 游 在 缓存 时 应 该 考虑 的 策略 。 例 如 ，Vary: 
Accept 表示 响应 是 根据 请 求 中 的 Accept 头 生成 的 。 带 有 不 同 Accept 头 的 请 求 可 能 会 获得 
不 同 的 响应 。 

(7.2) Django 缓存 系统 

Django 自 带 一 个 强大 的 缓存 系统 ， 使 用 这 套 缓存 系统 可 以 保存 动态 生成 的 页 面 ， 而 不 
用 每 次 都 耗费 大 量 的 计算 来 重新 泻 染 。 同 时 ，Dijango 还 提供 了 不 同 的 缓存 粒度 ， 如 可 以 组 
存 某 个 视图 或 者 整个 站 点 。 
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7.2.1 配置 缓存 


要 想 正 常 使 用 Django 的 缓存 系统 ， 需 要 进行 一 些 配置 ， 这 些 配置 会 告诉 Django 缓存 
数据 存在 哪里 。 和 Django 的 其 他 功能 一 样 ， 缓 存 的 配置 也 是 在 settings.py 文件 中 实现 的 ， 
用 于 配置 的 缓存 的 变量 是 CACHES。 

下 面 来 看 看 如 何在 Django 中 配置 使 用 Redis。Django 默认 不 支持 Redis 作为 缓存 的 
存储 后 端 ， 不 过 我 们 可 以 从 开源 项 目 中 获得 相应 的 工具 满足 我 们 的 需求 ， 这 里 我 们 使 用 
django_redis 项 目 来 进行 配置 。 

首先 需要 安装 django-redis 包 ， 打 开 命令 行 软 件 ， 输 入 下 面 的 代码 进行 安装 : 


# 命令 行 

pip install django-redis 

安装 完 后 ， 在 settings.py 文件 中 定义 CACHES 变量 ， 作 为 缓存 的 配置 。CACHES 和 之 
前 接触 过 的 DATABASES 很 像 ， 是 字典 类 型 的 数据 ， 并 且 可 以 定义 多 个 后 端 ， 没 有 后 端 有 
唯一 的 标识 符 。 示 例 代码 如 下 : 


# settings .py 文件 


CACHES = { 
dotanli re 
"BACKEND": "django redis.cache.RedisCcache"， # 设置 后 端 类 的 路 径 
"LOCATION": "redis://127.0.0.1:6379/1", # 缓存 后 端的 连接 方式 


POPTELONSE: 4 
"CLIENT CLASS": "django redis.client.DefaultClient" # 配置 选项 


} 


在 上 面 的 配置 中 ， 定 义 了 一 个 名 为 default 的 缓存 后 端 。 这 其 中 : 

@ BACKEND 设置 为 django_redis.cache.RedisCache，RedisCache 是 刚才 安装 的 库 中 定 
义 的 缓存 类 ， 字 符 串 是 这 个 类 的 代码 路 径 。 

@ LOCATION 设置 为 redis: /127.0.0.1: 6379/1, 这 是 Redis 服务 的 监听 下 地 址 和 端口 ， 
后 面 的 1 是 使 用 的 数据 库 编 号 。 

@ OPTIONS 定义 了 一 些 额 外 的 参数 ， 如 连接 到 后 端 服务 的 客户 端 。 

django-redis 不 仅 提供 了 基本 的 连接 配置 ， 而 且 可 以 配置 连接 池 。 缓 存 的 连接 池 用 于 优 

化 客户 端 到 缓存 服务 建立 连接 成 本 太 高 的 问题 。 示 例 配 置 如 下 : 
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CACHES 三 -并 
"default": { 
"BACKEND": "django redis.cache.RedisCache", 
”OPTIONSR > { 
"CONNECTION POOL KWARGS": {"max connections": 100} 


} 
这 里 配置 了 一 个 最 大 连接 数量 为 100 的 连接 池 。 


7.2.2 ”使 用 缓存 


Django 提供 了 操作 缓存 的 接口 ， 使 用 这 些 接口 可 以 按照 业务 需求 缓存 任意 数据 。 要 使 
用 这 些 接口 ， 首 先 要 获取 Django 的 缓存 对 象 。 示 例 代 码 如 下 : 


>>> from django .core.cache import caches 

>>> cache = caches['default'] 

# 如 果 default 没 有 定义 ,Django 会 抛 出 InvalidcacheBackendError 异 常 
# 上 面 的 操作 有 些 麻 烦 ,Django 提供 了 一 种 快捷 方式 获取 缓存 对 象 

>>> from django .core.cache import cache 


# 上 面 引 入 的 对 象 和 caches [ 'default'] 一 样 


获取 缓存 客户 端 后 ， 就 可 以 开始 操作 缓存 了 。 调 用 的 API 基本 上 和 单独 使 用 Redis 对 
象 保持 一 致 。 例 如 : 


>>> cache.set ("some key", "hello, redis", 30) 
>>> cache.get ("some key") 

"hello，redis'" 

# 等 待 30s 后 再 次 调用 , 缓存 已 经 过 期 

>>> cache.get ("some key") 

None 

# get 方 法 可 以 传 入 默认 值 

>>> cache.get('5ome_ key', "has expired") 
"has expired'" 

# 在 知道 缓存 不 存在 的 时 候 , 可 以 使 用 add 方 法 创建 
>>> cache.set('new key', 'initial value') 
>>> cache.add('new key', 'New value') 
>>> cache.get ('new key'') 

"Initial value' 

# 同时 设置 多 个 键 值 


>>> cache .set many({'a': 1, od hE le | 
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i eT ed she ee be 
# 同时 获取 多 个 键 值 

>>> cache.get many(['a', 'b', "c']) 

eb 

在 实际 场景 中 ， 多 个 业务 共用 一 个 缓存 服务 是 很 常见 的 。 毕 竟 ， 多 一 个 缓存 服务 就 
多 一 份 维护 成 本 。 在 缓存 的 键 值 上 做 一 些 改动 ， 是 满足 这 个 需求 比较 简单 的 做 法 。Django 
提供 了 KEY PREFIX 设置 参数 来 标示 一 个 键 值 的 方法 。 不 同 的 业务 可 使 用 不 同 的 KEY_ 
PREFIX， 生 成 不 同 的 键 值 ， 最 后 达到 区 分 业务 的 效果 。 

有 时 候 会 有 批量 删除 缓存 键 值 的 需求 ， 满 足 这 种 需求 最 简单 的 方式 是 删除 所 有 的 键 值 ， 
不 过 这 可 能 会 带 来 一 些 风 险 。 比 较 好 的 方式 是 为 某 一 批 键 值 设 置 标识 ， 根 据 这 个 标识 找到 所 
有 的 键 值 ， 然 后 批量 处 理 。Django 提供 的 VERSION 参数 可 以 用 来 进行 标记 。 示 例 代码 如 下 : 

# 设置 版 本 号 为 2 

>>> cache.set('my key', ‘hello', version=2) 

# 不 指定 版 本 号 , 将 找 my_key 

>>> cache.get ('my key') 

None 

# 指定 版 本 号 , 将 可 以 找到 缓存 


>>> cache.get ('my key', version=2) 
"hello” 


通过 上 面 的 两 个 例子 可 以 看 出 ，Django 对 传 入 的 键 值 其 实 进行 了 处 理 。 实 际 缓存 系统 
存储 的 是 一 个 新 的 键 值 ， 默 认 的 处 理 函数 如 下 : 


def make key(key, key_prefix, version): 
return ':'.join([key prefix, str(version), key]) 


也 可 以 通过 设置 KEY_FUNCTION 来 自 定义 生成 键 值 的 函数 。 想 要 使 用 调用 Redis 对 
象 的 API， 可 以 通过 django_redis 获取 原始 的 连接 。 示 例 代 码 如 下 : 


>>> from django redis import get redis connection 
>>> con = get redis connection ("default") 

>>> con 

<redis.client.strictRedis object at 0x2dc4510> 


7.2.3 ”缓存 页 面 


如 果 条 件 允 许 ， 使 用 缓存 最 简单 的 方式 是 缓存 整个 站 点 。 修 改 settings.py 文件 中 的 


MIDDLEWARE _ CLASSES 可 以 很 轻松 地 做 到 这 一 点 。 如 下 面 的 例子 : 


# settings.py 文 件 

MIDDLEWARE CLASSES = ( 
'django.middleware.cache.UpdateCacheMiddleware', 
'django.middleware.common.CommonMiddleware', 


'django.middleware.cache.FetchFromCacheMiddleware', 


) 


在 网 站 页 面 众多 的 时 候 , 这 种 策略 就 不 太 实 用 了 .实践 中 更 常见 的 策略 是 缓存 某 个 页 面 ， 
并 设置 缓存 过 期 的 时 间 ， 在 Django 中 相当 于 缓存 单个 视图 的 输出 。 如 下 面 的 代码 : 


# views.py 文 件 

from django.views.decorators.cache import cache _ page 
@cache page(60 * 15) 

def dummy view (request) 9 


# 执行 业务 逻辑 


cache_ page 方法 接受 缓存 的 时 间作 为 参数 。 在 上 面 的 例子 中 ，dummy_view 视图 生成 的 
内 容 会 被 缓存 1Smin。 若 要 缓存 视图 类 ， 则 可 以 在 URLConf 中 调用 cache_page。 示 例 代码 
如 下 : 


from django.views.decorators.cache import cache page 
url(r'^my url/?$', cache page(60*60) (MyView.as view())), 


Django 没有 提供 通用 缓存 函数 结果 的 装饰 器 。 不 过 ， 参 考 cache_page， 我 们 可 以 自己 
实现 一 个 缓存 装饰 器 。 示 例 代码 如 下 : 


from django.core.cache import cache 
from functools import wraps 
def cached (function, cache time=60): 
# 设置 缓存 时 间 
if cache tinme ==°0: 
cache time = None 
@wraps (function) 
def get cache or calll(*args, **kwargs): 
# 获取 函数 模块 名 
module name = function. module 
# 获取 类 名 
if ismethod (function) : 
class name = function.im class. name 
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Slses 
class name = "" 
# 获取 函数 名 
function name = function. name 


# 使 用 函数 模块 名 、 类 名 、 函 数 名 和 参数 生成 缓存 的 key 


cache key = "" .join([module name, class name，function name] + list(args)) 
查询 缓存 结果 

cached result = cache.get (cache key) 

# 如 果 缓 存 不 存在 


if cached result is None: 
# 得 到 函数 返回 值 

result = function(*args, **kwargs) 
# 将 结果 存 入 缓存 , 这 里 要 注意 result 是 None 的 情况 
cache.set (cache key, result, cache time) 
# 返回 结果 
return result 

# 如 果 缓 存 存在 , 则 直接 返回 

SLSBs 
result = cached result 
return result 

return get cache or call 


上 面 的 装饰 器 是 一 个 示例 ， 可 将 函数 所 在 模块 、 函 数 名 及 参数 组 合 起 来 ， 构 成 键 值 。 
如 果 在 缓存 中 找到 这 个 键 值 ， 则 直接 返回 缓存 的 结果 ; 如 果 找 不 到 ， 则 重新 计算 并 将 结果 
缓存 起 来 。 代 码 中 使 用 cached 的 方法 如 下 : 


@cached (1000) 
def some func() : 
result |= 0 


# 做 一 些 计算 量 比较 大 的 工作 并 将 结果 存 入 result 


return result 


cached 的 方法 也 并 不 是 一 个 通用 的 方法 ， 读 者 应 该 根据 具体 的 业务 场景 对 其 做 适当 的 
修改 。 


7.2.4 使 用 HTTP 缓 存 


Vary 是 一 个 HITP 响应 头 ， 它 决定 了 对 于 未 来 的 一 个 请 求 ， 应 该 是 使 用 缓存 还 是 向 服 
务 器 发 出 新 的 请 求 。 例 如 ， 如 果 网 页 的 内 容 取决 于 客户 端 语言 ， 则 该 响应 头 应 该 被 设置 为 
Vary: AcceptrLanguage。 
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默认 情况 下 ，Django 的 缓存 系统 使 用 请 求 的 完整 链接 作为 缓存 的 键 值 ， 即 所 有 请 求 
到 这 个 链接 都 会 使 用 相同 的 缓存 版 本 。 如 果 生 成 的 网 页 内 容 和 请 求 的 头 有 关 ， 则 可 以 使 用 
Vary 头 来 告诉 缓存 机 制 页 面 输出 取决 于 哪些 头 。 

Django 提供 的 vary_on_ headers 装饰 器 可 方便 定义 要 使 用 哪些 头 来 定义 缓存 ， 如 下 面 的 
示例 代码 : 


from django.views.decorators.vary import vary on headers 


@vary_on headers('User-Agent') 间 定义 Vary:User-Agent 
def my view (request): 


i 


调用 这 个 装饰 器 后 ，Django 的 缓存 机 制 将 为 每 一 个 User-Agent 缓存 单独 的 页 面 。 使 用 
vary_on_headers 的 另 一 个 优点 是 ， 如 果 Vary 头 已 经 存在 ， 则 这 个 装饰 器 会 向 Vary 头 中 添 
加 字段 ， 相 对 于 response["Vary']="user-agent' 的 写法 ， 更 能 保证 正确 性 。 

Vary_on_headers 可 以 接受 多 个 值 ， 如 下 面 的 示例 代码 ， 会 告诉 下 游 服务 要 根据 User- 
Agent 和 Cookie 头 来 设置 缓存 : 


@vary_on headers ('User-Agent', 'Cookie') 
def my view(request): 


Te 


在 实际 的 开发 场景 中 ， 根 据 Cookie 来 定制 缓存 策略 是 非常 常见 的 ， 因 此 Django 提供 
了 vary_on_cookie 装饰 器 ， 如 下 面 的 两 段 代 码 完全 等 效 : 


Q@vary_on cookie 
def my view(request): 


es 
# 这 两 段 代码 完全 等 效 
@vary_on headers ('Cookie') 


def my view (request): 
2 


在 业务 逻辑 中 添加 Vary 头 的 内 容 也 是 可 以 的 。 例 如 ， 业 务 需 要 在 执行 不 同 逻 辑 时 添加 
不 同 的 Vary 头 ， 这 时 候 可 以 使 用 Django 的 patch_vary_headers 装饰 器 。 示 例 代 码 如 下 : 
from django.utils.cache import patch vary headers 


def my view(request): 
天 


Django rb 


response = render to response('template name '， context) 
patch vary headers (response，['Cookie']) 六 将 响应 对 象 和 头 字段 作为 参数 传 入 
return response 
用 户 通常 会 面 对 两 种 缓存 , 一 种 是 本 地 的 浏览 器 缓存 , 另 一 种 是 网 络 服务 提供 商 的 缓存 。 
前 一 种 称 为 私有 缓存 ， 后 一 种 称 为 公共 缓存 。 公 共 缓 存 面临 着 隐私 问题 ， 例 如 ， 用 户 一 定 
不 想 让 自己 的 网 站 账号 和 密码 存在 公共 缓存 中 。 
HTTP 协议 中 的 cache-control 头 用 来 控制 这 种 缓存 策略 ，Dijango 也 提供 了 相应 工具 来 
定义 cache-control 头 ， 如 下 面 的 代码 : 


from django.views.decorators.cache import cache control 
Q@cache control (private=True) # 设置 响应 中 的 cache_control 为 private 
def my view(request): 


Ee 


值得 注意 的 是 ，cache_control: private 和 cache_control: public 应 该 是 互 斥 的 ， 如 果 设 
置 了 private， 那 么 响应 中 的 private 将 会 被 移 除 。 和 设置 Vary 头 类 似 ，Django 也 提供 了 可 
以 在 业务 中 根据 不 同 的 逻辑 设置 不 同 的 cache_control 值 的 工具 。 示 例 代 码 如 下 : 


from django.views.decorators.cache import patch cache control 
from django.views.decorators.vary import vary on cookie 
Q@vary_on cookie 
def list products (request): 
# 如 果 用 户 未 验证 , 则 设置 cache_control 为 public 
if request.user.is anonymous(): 
response = render only public entries() 
patch cache control (response, public=True) 
RSGS 
# 如 果 用 户 已 验证 , 则 设置 缓存 时 间 为 1h 
response = render private and public entries (request.user) 
patch cache control (response, must revalidate=True, max age=3600) 
return response 


我 们 经 常会 把 某 个 时 间 点 最 常用 的 数据 放 在 缓存 中 ， 这 些 数 据 有 时 候 也 称 为 “热点 数 
据 ”。 应 用 能 够 从 缓存 中 快速 获取 数据 , 从 而 提升 应 用 性 能 。 在 现实 中 , 缓存 的 容量 是 固定 的 ， 
缓存 应 该 只 保存 最 常 被 访问 的 那些 数据 。 
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当 缓 存 已 满 时 ， 必 须要 有 一 套 策略 ， 以 清理 不 那么 重要 的 数据 ， 从 而 让 新 的 热点 数据 
能 够 加 入 缓存 中 。 

最 近 最 少 使 用 算法 是 常用 的 缓存 替换 算法 〈Least Recently Used，LRU) 。 顾 名 思 义 ， 
该 算法 会 优先 丢弃 最 近 最 少 使 用 的 项 目 。 要 做 到 这 一 点 ， 要 求 该 算法 必须 知道 缓存 项 目 什 
么 时 候 被 使 用 。 

实现 跟踪 缓存 项 目的 效果 是 有 一 定 代价 的 。 一 般 的 实现 方式 是 消耗 存储 空间 来 记录 组 
存 的 “年 龄 ”， 并 基于 “年 龄 ”跟踪 “最 近 最 少 使 用 ”的 缓存 。 在 这 样 的 实现 中 ， 每 次 使 
用 一 个 缓存 时 ， 它 的 “年 龄 ”就 会 增加 ， 如 图 7.1 所 示 。 


A(O) 


A(O) B(1) 


A(0) B(1) CQ) 


| 


A(0) | BOD) | CQ) | DG) 
图 7.1 缓存 “年 龄 ”增加 


7.1 所 示 的 缓存 系统 一 共 能 放下 4 块 缓存 ， 当 A、B、C、D 依次 填 入 时 ， 缓 存 系统 
会 根据 最 近 使 用 情况 更 新 它们 的 “年 龄 ”, 数字 越 大 , 表示 使 用 时 间 离 当前 时 间 越 近 。 如 图 7.2 
所 示 ， 此 时 缓存 空间 已 经 被 占 满 ， 要 想 放置 其 他 缓存 ， 必 须要 淘汰 部 分 已 有 缓存 。 


E(4) B(1) CO) DG3) 


E(4) B(1) CO) DGO) 


E(4) F(6) CO) DGO) 
图 7.2 ”缓存 替换 
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在 图 7.2 中 , 当 要 存 入 新 的 缓存 E 时 , 由 于 现 有 的 空间 已 满 , 系统 发 现 A 的 “年 龄 ” 值 最 小 ， 
因此 将 其 淘汰 ， 将 王 放置 在 原来 A 的 位 置 上 。 除 了 插入 操作 会 更 新 “年 龄 ”外 ， 使 用 缓存 
也 会 更 新 “年 龄 ” 值 ， 因 此 使 用 D 后 ，D 的 “年 龄 ” 值 变 为 5。 和 缓存 A 一 样 ， 插 入 新 值 
FE 会 占据 原来 B 所 在 的 位 置 。 

Django 2.1 版 本 自 带 的 内 存 缓存 使 用 了 LRU 算法 。 缓 存 的 替换 算法 还 有 很 多 ， 如 先进 
先 出 〈Fist In First Out，FIFO) 算法 、 后 进 先 出 〈Last In First Out，LIFO) 算法 、 随 机 蔡 换 

(Radom Replace，RR) 算法 等 。 用 户 可 以 根据 业务 需要 选择 合适 的 内 存 蔡 换 策 略 。LRU 
算法 在 Django 中 的 实现 代码 如 下 : 


import time 

from django.core.cache.backends.base import BaseCache 
from django.utils.synch import RWLock 

from django.conf import settings 

# 配置 缓存 的 最 大 数量 

MAX KEYS = getattr(settings, 'LRU MAX KEYS', 1000) 
class LRUCache (BaseCache): 


Django 本 地 缓存 
mm 
def init (self, _, params): 
BaseCache. init (self, params) 
self. params = params 
self. cache = {} 
EEYE 
# 设置 最 大 缓存 键 值 数量 
self. max entries = int (params.get ('max entries')) 
except: 
self. max entries = MAX KEYS 
self. call seq = {} 
SelFE. call Tist = 人 
self. lock = RWLock() 
def lru purge (self) : 
# 执行 LRU 算 法 , 清除 缓存 
if self. cached num > self. max entries: 
key, val = self. call seq.popitem() 
self.delete (key) 
def add(self, key, val, timeout=3600): 
# 添加 缓存 
if not self.has key (key): 
self.set (key, val, timeout) 
def set(self, key, val, timeout=3600): 
# 设置 缓存 


self. lock. writer enters () 
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pass 

self. cached num = lenl(self. cache) 
self. lock.writer leaves() 

def has key(self, key): 

# 判断 键 值 是 否 存在 
return self. cache.has key (key) 

def clear (self) : 

# 清空 缓存 


[self.delete (key) for key, val in self. cache.iteritems()] 


当 系统 将 数据 写 入 缓存 时 ， 必 须 在 某 些 时 候 将 数据 存储 到 存储 系统 中 ， 如 数据 库 。 这 
是 因为 ， 虽 然 缓存 能 够 提升 系统 的 性 能 ， 但 是 缓存 往往 存在 内 存 中 ， 是 容易 丢失 的 ， 如 系 
统 断 电 ， 或 者 缓存 相关 的 进程 退出 。 因 此 ， 选 择 合适 的 策略 来 持久 化 数据 是 非常 重要 的 ， 
下 面 来 学 习 几 种 常见 的 写 入 策略 。 


7.4.1 ”Cache-Aside 模 式 


许多 的 商业 缓存 提供 直 读 (Read-Through) 和 直 写 (Write-Through) /后 写 (Write-Behind) 
操作 。 如 果 使 用 了 这 些 系统 ， 则 应 用 程序 可 以 通过 缓存 来 检索 数据 。 如 果 数 据 不 在 缓存 中 ， 
则 系统 会 从 数据 存储 系统 中 检索 数据 并 将 其 添加 到 缓存 中 。 对 缓存 数据 的 修改 也 会 自动 同 
步 到 数据 存储 系统 。 

对 于 不 提供 此 功能 的 缓存 系统 来 说 ， 应 用 程序 负责 缓存 数据 的 更 新 。Cache-Aside 模式 
可 以 根据 需要 将 数据 从 存储 系统 加 载 到 缓存 中 。 采 用 这 种 模式 不 仅 可 以 利用 缓存 提高 性 能 ， 
而 且 有 助 于 让 缓存 中 的 数据 和 数据 存储 系统 中 的 数据 保持 一 致 。Cache-Aside 模式 的 工作 过 
程 如 图 7.3 所 示 。 

使 用 Cache-Aside 模式 有 一 些 地 方 要 注意 ， 首 先 要 注意 缓存 数据 的 生命 周期 。 很 多 缓存 
系统 实现 了 一 个 过 期 策略 ， 即 如 果 在 指定 的 时 间 段 内 未 访问 数据 ， 则 将 其 从 缓存 中 删除 。 
要 保证 过 期 策略 与 应 用 程序 的 访问 模式 匹配 。 过 期 时 间 不 宜 设 得 太 短 ， 因 为 这 会 导致 应 用 
程序 不 断 从 数据 存储 系统 中 检索 数据 并 将 其 添加 到 缓存 中 ， 同 样 地 ， 过 期 时 间 也 不 宜 设 得 
太 长 ， 因 为 数据 可 能 会 过 时 。 
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1. 判断 元 素 是 否 在 缓存 中 
2. 如 果 元 素 不 在 缓存 中 ， 则 从 数据 库 读 取 元 素 
3. 将 元 素 的 备份 存 入 缓存 


图 7.3 ”Cache-Aside 模式 的 工作 过 程 


另外 , 需要 注意 数据 的 一 致 性 。 这 种 模式 并 不 会 保证 数据 存储 系统 和 缓存 之 间 的 一 致 性 。 
数据 存储 系统 中 的 元 素 可 能 随时 会 被 更 改 ， 这 些 更 改 不 会 自动 同步 到 缓存 中 。 在 存在 多 个 
数据 存储 系统 的 系统 中 ， 数 据 频繁 进行 同步 ， 可 能 会 让 问题 变 得 严重 。 

当 数 据 出 现 更 新 的 时 候 ， 要 防止 出 现 缓存 数据 过 期 的 情况 ， 最 简单 的 做 法 是 先 更 新 数 
据 库 ， 然 后 让 缓存 中 的 数据 过 期 。 这 样 下 次 查询 不 会 命中 缓存 ， 从 而 从 数据 存储 系统 中 重 
新 读 取 ， 然 后 写 入 缓存 。 

那么 为 什么 不 在 更 新 数据 存储 系统 后 更 新 缓存 ， 而 是 让 缓存 失效 呢 ? 这 里 主要 考虑 一 
个 并 发 问题 。 假 设 这 里 有 两 个 进程 一 一 进程 A 和 进程 B， 它 们 先后 更 新 数据 库 。 如 果 在 更 
新 数据 存储 系统 后 更 新 缓存 ， 在 使 用 Redis 的 情况 下 ， 更 新 缓存 是 一 个 网 络 操作 ， 有 可 能 
出 现在 B 进程 更 新 缓存 后 ，A 进程 再 次 更 新 缓存 的 情况 。 此 时 缓存 保存 的 是 A 版 本 ， 也 就 
是 较 旧 的 版 本 。 

那么 ， 使 用 Cache-Aside 就 不 会 有 并 发 问题 了 吗 ? 不 是 的 ， 例 如 ， 一 个 读 操作 没有 命中 
缓存 ， 从 而 到 数据 存储 系统 读 取 数据 ， 此 时 执行 一 个 写 操作 ， 写 完 数据 库 后 缓存 失效 ， 然 
后 之 前 的 读 操 作 又 把 老 的 数据 放 了 进去 ， 这 时 就 会 产生 脏 数 据 。 这 个 例子 在 理论 上 说 明 ， 
使 用 这 个 策略 也 存在 并 发 问题 ， 不 过 在 实际 中 出 现 并 发 问题 的 概率 非常 低 。 

在 Django 中 实现 Cache-Aside 模式 的 示例 代码 如 下 : 


from django.core.cche import cache 

from .models import Product 

def get product detail (product iq): 
# 从 缓存 获取 数据 


cache product = cache.get (product id) 


Django 项 目 开 》 


# 如 果 数据 存在 则 返回 
if cache product: 
return cache product 
# 如 果 数 据 不 存在 , 则 从 数据 库 读 取 数据 , 并 缓存 
else: 
product detail = Product.objects.get (pk=product id) 
if product detail: 
cache.set (product id, product detail.title) 
return product detail.title 


7.4.2 ”Write-Through 模 式 


和 Cache-Aside 模式 不 同 ， 在 Write-Through 模式 中 ， 只 要 将 数据 写 入 数据 库 ， 就 会 在 
缓存 中 添加 数据 或 更 新 数据 ， 如 图 7.4 所 示 。 


1. 写 入 数据 存储 系统 
2. 写 入 缓存 
7.4 Wirte-Though 模式 


Write-Through 模式 的 工作 流程 如 图 7.5 所 示 。 

这 个 模式 有 两 个 优点 : 

@ 缓存 数据 永远 不 会 过 时 。 由 于 每 次 将 数据 写 入 数据 库 时 都 会 更 新 缓存 数据 ， 因 此 缓 
存 数 据 始终 都 是 最 新 的 。 

@ 用 户 体验 更 好 。 每 次 写 入 数据 都 包括 两 次 操作 : 写 入 数据 库 和 写 入 缓存 。 这 增加 了 
系统 的 延迟 。 对 于 用 户 来 说 ， 相 比 检索 数据 ， 更 新 数据 的 延迟 更 能 容忍 。 

这 个 模式 也 存在 两 个 缺点 : 

@ 丢失 数据 。 在 启动 新 缓存 节点 的 情况 下 ， 无论 是 节点 故障 还 是 向 外 扩展 ， 新 的 节点 
都 不 会 有 之 前 的 数据 ， 直 到 数据 库 有 数据 的 添加 和 更 新 ， 数 据 才 会 写 入 缓存 。 

@ 占用 空间 ,在 这 个 模式 下 , 大 部 分 数据 可 能 不 会 用 到 , 这 无 疑 会 占据 缓存 系统 大 量 的 空间 。 
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命中 是 命中 是 
缓存 缓存 
否 vy 
从 数据 存储 系统 写 入 
读 取 数 据 并 写 入 在 人 
缓存 , 
| 数据 写 回 数据 |。 | 
存储 系统 
返回 数据 “| 一 
请 求 结束 


7.5_Write-Through 模式 的 工作 流程 
示例 代码 如 下 : 


from django.core.cche import cache 

from .models import Product 

def update product (product id, product title): 
proudct = Product .objects .get (pk=product) 
product.title = title 
# 写 入 数据 库 
product .save () 
# 写 入 缓存 
cache.set (product id, product title) 


和 Write-Through 类 似 的 还 有 Read-Through， 即 在 读 取 数据 的 时 候 写 入 缓存 。 


7.4.3 ”Write-Back 模 式 


Write-Back 模式 和 Write-Through 模式 有 所 不 同 。Write-Back 模式 的 写 入 操作 最 开始 只 
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对 缓存 生效 ， 对 数据 存储 的 写 入 将 会 推迟 。 直 到 修改 的 内 容 要 被 蔡 代 时 ， 数 据 才 被 存储 到 


数据 存储 系统 中 。 这 种 模式 有 时 候 又 称 为 Write-Behind 模式 。 
这 个 模式 实现 起 来 较为 复杂 。 实 现 这 种 模式 需要 记录 哪些 缓存 会 被 蔡 换 掉 ， 在 这 些 数 


据 被 替换 的 时 候 ， 才 将 其 写 入 数据 存储 系统 。Write-Back 模式 的 工作 流程 如 图 7.6 所 示 。 


是 
闭 取 妈 存 位置 获取 缓存 位 轩 
生命 \、、 是 
有 和 E> 一 
数据 写 回 数据 数据 写 回 数 据 
| 存储 系统 存储 系统 
时 
数据 读 入 组 存 | | 数据 读 入 组 存 
六 YY 
标记 该 位 置 非 新 数据 写 入 
让 缓存。 
标记 该 位 时 
返回 数据 及 


图 7.6 Write-Back 模式 的 工作 流程 


这 种 模式 能 够 大 幅 提升 系统 的 写 入 性 能 ， 可 以 在 一 定 程度 上 应 对 数据 库 障碍 ， 并 且 可 
以 容忍 一 些 数 据 库 停 机 时 间 。 不 过 使 用 这 种 策略 可 能 会 带 来 数据 的 丢失 ， 因 为 缓存 服务 本 


身 可 能 宕 机 。 因 此 ， 在 做 技术 选 型 的 时 候 需要 仔细 考虑 。 
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由 于 能 够 有 效 提高 系统 的 性 能 ， 缓 存 的 应 用 越 来 越 广泛 。 在 很 多 架构 中 ， 缓 存 系统 已 
经 是 非常 关键 的 一 部 分 。 缓 存 系统 的 失效 有 时 甚至 意味 着 整个 系统 的 宕 机 ， 引 发 雪 骨 效应。 
因此 ， 人 们 越 来 越 重 视 缓存 系统 本 身 的 高 可 用 性 ， 开 源 软 件 中 也 出 现 了 缓存 高 可 用 的 方案 
和 缓存 失效 的 应 对 措施 。 


7.5.1 Redis 集 群 


Redis 集群 支持 多 个 Redis 节点 以 集群 的 方式 存储 数据 ， 数 据 会 自动 分 片 保存 。 在 分 区 
的 情况 下 ，Redis 集群 可 以 保证 一 定 程度 的 可 用 性 ， 即 在 一 个 节点 不 可 用 的 情况 下 ， 整 个 集 
群 依然 可 以 正常 提供 服务 。 但 是 在 大 多 数 主 节点 都 不 可 用 的 情况 下 ,整个 集群 也 会 不 可 用 。 

Redis 集群 是 Redis 3.0 以 后 版 本 提供 的 功能 。 其 主要 有 两 个 特性 : 一 个 是 数据 的 自动 
分 区 存储 ， 另 一 个 是 集群 的 高 可 用 性 ， 即 部 分 节点 不 可 用 不 影响 集群 的 可 用 性 。Redis 集群 
结构 如 图 7.7 所 示 。 


客户 端 


主 节点 主 节点 主 节 点 
A B C 


从 节点 从 节点 从 节点 
Bl cl 


图 7.7 Redis 集群 结构 


Redis 集群 没有 使 用 传统 的 一 致 性 哈 希 来 分 配 数据 ， 而 是 采用 一 种 称 为 “ 哈 希 模 ” 的 方 
式 来 分 配 数据 。 集 群 默 认 分 配 了 16384 个 槽 , 在 分 配 的 时 候 , 会 采用 算法 CRC16(key)%16384 
的 计算 结果 ， 将 数据 分 配 到 不 同 的 节点 上 。 

Redis 集群 中 的 每 个 节点 负责 存储 数据 槽 的 一 个 子 集 。 假 设 有 3 个 节点 : A 节点 存储 
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0 一 55$00，B 节点 存储 5501 ~ 11000，C 节点 存储 11001 ~ 16383。 根 据 公式 计算 结果 ， 
如 果 结 果 大 于 0 而 小 于 5500， 那 么 数据 将 存储 到 A 节点 上 。 

这 种 特性 使 增加 或 删除 节点 非常 容易 。 要 加 入 D 节点 ， 只 需要 将 A、B、C 的 部 分 模 
转移 到 D 上 ; 同 理 ， 要 删除 C， 只 需要 将 C 的 槽 转移 到 A 和 B 上 ， 当 C 节点 的 数据 被 转 
移 和 清空 后 ， 就 可 以 删除 C 节点 了 。 

Redis 集群 支持 主 从 模式 ， 从 节点 会 保存 主 节点 的 全 部 数据 。 在 上 面 的 例子 中 ， 假 设 B 
节点 不 可 用 ， 那 么 5501 ~ 11000 模 将 不 能 提供 服务 。 此 时 Bl 节点 会 升级 为 主 节点 ， 系 统 
的 可 用 性 不 受 影响 。 不 过 ， 如 果 B 节点 和 B1l 节点 同时 不 可 用 ， 则 5501 ~ 11000 模 不 能 继 
续 提 供 服 务 。 

Redis 集群 不 会 保证 数据 的 强 一 致 性 。 部 分 场景 可 能 会 出 现 数据 丢失 的 现象 ， 丢 失 数 据 
的 第 一 个 原因 可 能 是 Redis 集群 的 主 节点 异步 向 从 节点 复制 数据 。 在 客户 写 入 数据 时 ， 会 
经 过 下 面 的 过 程 。 

(1) 数据 写 到 主 节点 B。 
(2) 主 节点 B 返 回 “OK”。 
(3) 主 节点 将 数据 复制 到 从 节点 B1。 

可 以 看 到 ， 主 节点 B 在 向 客户 端 返回 “OK” 之 前 ， 并 不 会 等 待 B1 的 确认 写 入 的 回应 。 
这 样 做 主要 出 于 性 能 考虑 ， 因 为 不 能 让 客户 等 待 太 长 时 间 。 假 如 第 2 步 执行 成 功 ， 在 第 3 
步 执行 前 B 不 可 用 ， 此 时 B1 会 升级 为 新 的 主 节点 ， 那 这 次 写 入 就 永远 失效 了 。 

有 的 场景 还 可 能 出 现 网 络 隔离 导致 写 入 丢失 的 情况 。 假 设 A、C、Al、B1、C1 和 B 之 
间 出 现 了 网 络 隔离 ， 客 户 端 和 了 B 之 间 的 网 络 联通 正常 。 客 户 端 向 B 写 入 成 功 ， 如 果 网 络 没 
有 很 快 恢复 ，B1 成 为 了 新 的 主 节点 ， 那 么 客户 端 向 B 写 入 的 数据 就 会 丢失 。 

Django 并 不 直接 支持 Redis 集群 模式 ， 我 们 可 以 使 用 第 三 方 库 redis-py-cluster 来 使 
用 Redis 集群 。 首 先 安装 redis-py-cluster， 然 后 新 建 redis_connection.py 文件 ， 并 写 入 
代码 : 

## 命令 行 

pip install redis-py-cluster 

# redis_connection.py 文 件 

from rediscluster import StrictRedisCluster 

startup nodes = [ 

{"host": "127.0.0.1",， "port": "7000"},， A 节点 


oatea wio TD ln Woon m0 和 和 蔬 民 
hesE S10 0 1 Sportee TODC2 二 C 节 点 
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t"host": "m127.0.0.1", "port": m7003"}, 考 Al 节 点 
("host™: nl]27.0<00 1 nportw: "7004"n7 Bu 的 所 
Enostv nl27 0 0 nn nportn: m7005n CT 节点 
] 
rc= StrictRedisCluster (startup nodes=startup nodes, decode responses=True) 


后 面 的 代码 只 需要 从 redis_connection 模块 中 引入 rc 对 象 即 可 。 


7.5.2 Codis 集 群 


Codis 是 一 个 高 性 能 Redis 集群 方案 ， 也 是 一 个 分 布 式 Redis 解决 方案 。 对 于 上 层 应 用 
来 说 ， 连 接 到 Codis 代理 和 连接 到 原生 Redis 服务 没有 明显 的 区 别 。 上 层 应 用 可 以 像 使 用 单 
机 Redis 一 样 使 用 Codis，Codis 底层 会 处 理 请 求 的 转发 、 不 停机 的 数据 迁移 等 工作 。Codis 
的 架构 如 图 7.8 所 示 。 


协调 进程 


(zookeeper) 


codis 代 理 | codis 代 理 codis 代 理 
codis-redi codis-redi codis-redi 
Es s 组 Es 
codis-redis 主 节点 
codis-redis 从 节点 


7.8 Codis 的 架构 


由 图 7.8 可 以 看 到 ，Codis 是 一 个 比较 复杂 的 解决 方案 ， 需 要 由 专业 的 运 维 团队 来 负责 
Codis 服务 的 搭建 。 
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Codis 集群 主要 由 以 下 组 件 组 成 。 

@ Codis 服务 : 基于 Redis 3.2.8 开发 ， 支 持 档 相 关 的 操作 和 数据 迁移 ， 可 以 将 其 看 作 
一 个 Redis 服务 。 

@ Codis 代理 : 客户 端 连 接 的 Redis 代理 服务 ， 实 现 了 Redis 协议 。 同 一 个 业务 集群 可 
以 部 署 多 个 代理 服务 。 

另外 ，Codis 还 提供 了 集群 管理 工具 、 管 理 界面 和 命令 行 工 具 ， 用 于 对 集群 进行 管理 。 


7.5.3 ”缓存 穿 透 和 雪崩 


操作 安装 了 缓存 组 件 的 系统 查询 数据 时 ， 一 般 是 先 查 缓存 ， 如 果 没 有 命中 ， 则 查询 数 
据 存储 系统 。 存 在 这 样 一 种 情况 ， 某 个 数据 不 存在 ， 每 次 查询 这 个 数据 都 不 会 命中 ， 这 将 
导致 每 次 对 这 个 数据 进行 查询 都 会 访问 缓存 和 数据 库 。 

攻击 者 一 旦 发 现 这 样 的 数据 ， 就 可 以 通过 反复 请 求 这 个 数据 来 攻击 系统 。 一 旦 发 生 这 
样 的 情况 ， 缓 存 将 起 不 到 保护 后 端 存储 系统 的 目的 。 这 种 访问 叫 作 缓存 穿 透 。 

可 以 使 用 布 降 过 滤器 来 应 对 缓存 穿 透 问题 。 布 降 过 滤器 是 一 种 概率 数据 结构 ， 可 以 有 
效 验 证 某 个 数据 肯定 不 在 集合 中 。 它 占用 的 空间 非常 小 ， 是 一 种 非常 高 效 的 数据 结构 。 

Redis 4.0 以 后 版 本 提供 了 布 隆 过 滤器 数据 结构 ， 如 果 Redis 版 本 太 低 ， 则 可 以 使 用 第 
三 方 库 来 实现 相关 功能 ， 如 pyreBloom。 安 装 相关 依赖 包 的 命令 行 和 使 用 示例 如 下 : 


命 今 行 


# 节令 行 

brew install hiredis 

git clone https://github.com/seomoz/pyreBloom 

cd pyreBloom && pip install -r requirements.txt && Python setup.py install 
# Python 测试 代码 

import pyreBloom 

# 传 入 键 值 、 容 量 和 错误 率 

p = pyreBloom.pyreBloom('aBloomFilter', 10000, 0.01) 
P.bits 

P.hashes 

tests = ['hello', "how'， 'are', 'you', 'today'] 
p.extend (tests) 

p.contains('hello')  # 测试 键 值 是 否 存在 


# True 


在 缓存 服务 器 重启 ， 或 者 大 量 缓存 在 同一 时 间 失 效 的 时 候 ， 可 能 会 有 多 个 进程 同时 参 
与 构建 缓存 的 情况 ， 这 种 情况 称 为 “ 惊 群 ”效应 。 多 个 进程 同时 参与 重新 构建 缓存 ， 会 对 
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系统 造成 大 量 压 力 ， 甚 至 出 现 后 端 服务 崩 演 ， 造 成 雪崩 的 情况 。 

避免 雪崩 有 两 种 常用 的 方法 。 第 一 种 是 在 缓存 失效 后 ， 通 过 加 锁 或 者 队列 来 控制 读数 
据 库 和 写 缓存 的 线程 数量 ， 这 样 可 以 显著 降低 系统 压力 。 第 二 种 是 为 不 同 的 缓存 设置 不 同 
的 过 期 时 间 ， 让 缓存 失效 的 时 间 点 尽量 均匀 。 


缓存 能 够 有 效 提升 网 站 系统 的 性 能 ， 在 互联 网 中 应 用 非常 广泛 ， 是 非常 重要 的 组 件 。 
本 章 首 先 介绍 了 HTTP 定义 的 缓存 和 开源 缓存 软件 Redis (前 者 用 于 在 客户 端 提供 缓存 ， 提 
升 用 户 响应 速度 ,而 后 者 用 于 缓存 计算 的 结果 , 能 够 提升 服务 的 响应 速度 , 提升 用 户 体验 ); 
然后 介绍 了 Django 框架 自 带 的 缓存 系统 ， 以 及 如 何 利用 这 个 系统 来 编写 业务 代码 ， 接 下 来 
介绍 了 常见 的 缓存 替换 和 写 入 策略 ， 最 后 介绍 了 Redis 集群 和 Codis 集群 等 高 可 用 的 缓存 方 
案 ， 以 及 防止 缓存 穿 透 和 雪崩 的 方法 ， 合 理 使 用 这 些 方案 和 方法 能 够 有 效 提升 缓存 系统 的 
可 用 性 。 


练习 一 : 缓存 的 作用 是 什么 ? 
练习 二 : 使 用 缓存 有 哪 几 种 常见 的 模式 ? 
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一 个 用 户 数 量 很 大 的 网 站 平时 会 处 理 大 量 的 请 求 。 一 个 请 求 可 能 是 CPU 型 任务 ， 也 有 可 能 是 VO 
型 任务 。 有 些 任务 可 能 需要 复杂 的 算法 和 处 理 复杂 的 上 游 服务 调用 链 。 处 理 这 些 任务 时 ， 要 耗费 大 
量 时 间 和 资源 ， 服 务 器 有 可 能 被 这 些 任务 阻塞 而 无 法 处 理 更 多 的 请 求 。 

解决 这 个 问题 的 一 种 常见 的 做 法 是 ， 让 应 用 程序 将 请 求 通过 消息 传递 系统 传递 给 另 一 个 异步 处 
理 这 些 请 求 的 服务 。 应 用 程序 不 再 同步 处 理 每 一 个 请 求 。 我 们 将 解决 这 个 问题 的 系统 称 为 异步 任务 
系统 。 

本 章 主要 涉及 的 知识 点 : 

@ 认识 消息 队列 : 学 习 什么 是 消息 队列 。 

@ Celery 框架 : 学 习 如 何在 Django 中 应 用 Celery 框架 。 

@ 消息 队列 的 最 佳 实践 : 学 习 如 何在 生产 环境 中 应 用 消息 队列 可 能 遇 到 的 问题 和 问题 的 解决 

方案 。 

@ 高 可 用 消息 队列 : 学 习 高 可 用 消息 队列 架构 。 


消息 队列 允许 应 用 程序 通过 彼此 发 送 消息 进行 通信 。 在 目标 程序 繁忙 时 ， 消 息 队 列 提 
供 临 时 消息 存储 空间 。 消 息 队 列 系统 一 般 提供 异步 通信 协议 ， 这 意味 着 消息 的 发 送 方 和 接 
收 方 不 需要 同时 与 消息 队列 交互 。 

这 和 邮箱 类 似 ， 在 互联 网 还 没有 那么 流行 的 时 候 ， 亲 友 想 要 与 我 们 联系 ， 往 往 会 写 一 
封 信 ， 这 封 信和 最 后 会 寄 到 我 们 的 邮箱 ， 等 我 们 有 空 的 时 候 就 打开 邮箱 ， 拿 出 信件 ， 获 得 信 
件 中 的 信息 。 


8.1.1 消息 队列 系统 


队列 是 计算 机 系统 中 常见 的 数据 结构 。 队 列 中 的 数据 按照 进入 队列 的 顺序 排 好 ， 等 待 
理 。 消 息 是 发 送 方 和 接收 方 应 用 程序 之 间 传 输 的 数据 。 例 如 ， 让 系统 在 某 时 某 刻 发 送 一 


痛 
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封 电子 邮件 ， 可 以 是 一 条 消息 。 

消息 队列 系统 的 基本 结构 很 简单 。 有 一 些 应 用 程序 称 为 生产 者 ， 它 们 创建 消息 并 将 这 
些 消息 传递 到 消息 队列 。 另 外 一 些 应 用 程序 称 为 消费 者 ， 它 们 连接 到 队列 ， 获 取消 息 并 处 
理 这 些 消 息 。 放 置 在 队列 中 的 消息 将 被 存储 起 来 ， 直 到 消费 者 来 检索 它们 。 消 息 队列 系统 
的 结构 如 图 8.1 所 示 。 


消费 队列 


8.1 消息 队列 系统 的 结构 


消息 队列 提供 异步 通信 协议 ， 放 入 消息 队列 的 消息 不 需要 立即 得 到 响应 。 一 个 常见 的 
示例 是 电子 邮件 。 当 发 送 电子 邮件 时 ， 发 件 人 可 以 继续 处 理 其 他 事情 ， 而 电子 邮件 接收 方 
无 须 立 即 响 应 。 

若 系统 的 一 部 分 对 系统 的 另 一 部 分 存在 依赖 ， 则 称 两 者 的 这 种 关系 为 耦合 。 一 般 的 程 
序 设 计 实 践 推荐 将 系统 的 不 同 模块 分 开 ， 这 称 为 解 耦 。 使 用 消息 队列 将 生产 者 和 消费 者 的 
逻辑 解 看， 因为 它们 不 需要 同时 与 消息 队列 交互 。 

两 个 系统 模块 之 间 实 现 解 厢 ， 意 味 着 它们 可 以 在 不 直接 连接 的 情况 下 进行 通信 。 解 看 
通常 是 系统 结构 良好 的 标志 。 通 常 来 说 ， 一 个 解 耦 的 系统 更 容易 维护 、 扩 展 和 测试 。 

在 充分 解 耦 的 系统 中 ， 若 一 个 进程 因为 挂 掉 无 法 处 理 来 自 队 列 的 消息 ， 则 其 他 消息 依 
然 可 以 添加 到 队列 中 ; 挂 掉 的 进程 重新 起 来 后 ， 可 以 继续 处 理 这 些 消息 。 

将 应 用 程序 的 不 同 部 分 分 离 并 用 异步 的 方式 来 进行 通信 有 益 于 团队 合作 ， 因 为 不 同 的 
模块 可 以 独立 发 展 ， 负 责 不 同 模块 的 团队 可 以 使 用 不 同 的 语言 进行 编写 。 

使 用 消息 队列 后 ， 应 用 程序 不 同 模块 的 进程 可 以 彼此 独立 。 一 个 模块 的 进程 永远 不 需 
要 调用 另 一 个 进程 ， 或 者 将 通知 发 布 到 另 一 个 进程 。 生 产 者 负责 生产 消息 ， 然 后 将 消息 放 
入 队列 ;消费 者 负责 从 队列 中 获取 消息 ， 然 后 进行 处 理 。 这 种 处 理 消息 的 方式 使 生产 者 和 
消费 者 都 易于 扩展 。 

假设 系统 每 秒 都 会 收 到 许多 请 求 ， 每 个 请 求 都 需要 很 长 的 时 间 去 处 理 ， 并 且 在 业务 上 
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不 允许 任何 请 求 丢失 。 而 系统 必须 做 到 高 可 用 并 且 随 时 准备 好 接受 新 请 求 ， 因 此 不 能 被 之 
前 收 到 的 请 求 长 时 间 占 据 。 

在 这 种 情况 下 ， 最 好 在 Web 服务 和 请 求 处 理 服 务 之 间 放 置 一 个 队列 。Web 服务 器 接受 
到 请 求 后 ， 将 这 个 请 求 放 入 队列 中 ， 然 后 去 接受 下 一 个 请 求 ， 与 此 同时 ， 另 外 一 个 进程 从 
队列 中 按 顺序 读 取 消息 并 且 处 理 请 求 。 这 两 个 进程 不 需要 彼此 等 待 。 如 果 在 短 时 间 内 收 到 
大 量 请 求 ， 这 样 系统 能 够 有 效 处 理 它们 。 如 果 请 求 的 数量 实在 庞大 ， 则 消息 队列 将 负责 保 
留 这 些 请 求 。 

随 着 业务 的 发 展 ， 用 户 数 和 请 求 数 都 持续 增长 ， 如 果 系 统 要 扩容 ， 则 只 需要 增加 更 多 
的 服务 器 进程 来 处 理 更 多 的 请 求 ， 以 及 增加 更 多 的 消费 者 进程 来 消费 队列 中 的 消息 。 


8.1.2 ”使 用 消息 队列 


在 现实 的 应 用 场景 中 ， 系 统管 理 员 (专业 运 维 ) 负责 安装 好 消息 队列 软件 ， 做 好 配置 ， 
并 定义 消息 队列 的 名 字 以 供 使 用 。 当 然 ， 随 着 现在 云 计算 越 来 越 普及 ， 一 些 团 队 会 使 用 云 
服务 提供 商 提 供 的 消息 队列 服务 。 

起 几 个 进程 ， 负 责 监 听 队 列 中 的 消息 ， 再 起 几 个 进程 ， 负 责 将 消息 传送 到 队列 。 消 息 
队列 服务 负责 存储 消息 ， 等 待 应 用 程序 的 连接 。 在 很 多 的 系统 架构 中 ， 消 息 队列 又 称 为 消 
息 代 理 〈broker) 。 消 息 传 递 的 确切 语义 通常 有 很 多 选项 ， 包 括 如 下 内 容 。 

@ 持久 化 选项 : 消息 可 能 保存 在 内 存 中 ， 写 入 磁盘 ， 如 果 有 特殊 的 需求 ， 则 也 可 以 考 

虑 将 消息 写 入 数据 库 。 

@ 安全 选项 : 哪些 应 用 程序 可 以 访问 消息 。 

@ 消息 生命 周期 选项 : 为 消息 队列 或 者 消息 设置 有 效 时 间 。 

@ 消息 过 滤 选 项 : 一 些 消息 队列 系统 支持 过 滤 数 据 ， 这 样 消费 者 只 能 看 到 符合 某 些 要 

求 的 消息 。 

@ 消息 交付 策略 选项 : 配置 是 否 需要 保证 消息 至 少 发 送 一 次 ， 或 者 不 超过 一 次 。 

@ 路 由 策略 选项 : 在 有 很 多 队列 的 系统 中 ， 配置 哪 些 服务 器 应 该 接收 消息 。 

@ 批 处 理 策略 选项 : 配置 消息 是 否 应 该 立即 发 送 ， 或 者 系统 应 该 稍微 等 一 下 并 尝试 一 

次 发 送 多 条 消息 。 
@ 入 队 标 准 选项 : 配置 将 消息 视 为 入 队 的 标准 。 
@ 消息 消费 确认 选项 : 配置 当 消息 被 消费 者 接收 时 ， 是 否 通知 消息 的 生产 者 。 
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在 消息 系统 发 展 的 早期 ， 消 息 队列 使 用 专 有 的 封闭 协议 ， 这 限制 了 不 同 操作 系统 和 编 
程 语 言 在 不 同 环境 中 交互 的 能 力 。 

随 着 时 代 的 发 展 ， 人 们 认识 到 这 种 封闭 协议 不 利于 开发 大 规模 的 应 用 。 现 在 已 经 有 了 
新 的 公共 协议 来 解决 这 个 问题 ， 比 较 常 见 的 有 AMQP、STOMP、MQTT 等 协议 。 一 些 开源 
的 项 目 实现 了 这 些 协 议 ， 被 许多 互联 网 公司 采用 ， 用 来 构建 异步 系统 。 流 行 的 开源 软件 有 
RabbitMQ、Apache Kafka、NSQ 等 。 


8.1.3 AMQP 


高 级 消息 队列 协议 (Advanced Message Queuing Protocol，AMQP ) 是 一 种 消息 传递 协议 ， 
可 使 符合 要 求 的 应 用 程序 之 间 进 行 通信 。0-9-1 版 本 是 目前 AMQP 广泛 使 用 的 版 本 ， 因 此 
AMQP 定义 的 通信 模型 也 称 为 AMQP 0-9-1 模型 。 

实现 了 AMQP 的 软件 通常 称 为 消息 代理 。 它 负责 从 生产 者 接收 消息 ， 并 将 消息 路 由 到 
消费 者 。AMQP 是 一 个 网 络 协议 ， 因 此 消息 生产 者 、 消 息 消 费 者 和 消息 代理 可 以 部 署 在 不 
同 的 机 器 上 。 

AMQP 模型 的 工作 方式 如 下 : 生产 者 将 消息 发 布 到 交换 机 (exchange) ， 交 换 机 有 点 
像 现 实生 活 的 邮局 ， 负 责 将 消息 分 发 到 队列 ， 分 发 的 规则 称 为 绑 定 。 接 下 来 代理 将 消息 发 
送 给 订阅 了 队列 的 消费 者 ; 或 者 消费 者 从 队列 中 主动 拉 取 消息 ， 如 图 8.2 所 示 ， 这 种 模式 
也 称 为 发 布 (publish) - 订阅 (subscribe〉 模式 。 

生产 者 发 布 消息 时 ， 可 以 指定 各 种 消息 的 属性 ， 这 种 属性 称 为 元 数 
据 。 某 些 元 数据 可 能 被 代理 使 用 ， 其 余部 分 则 完全 对 代理 透明 ， 仅 由 订 = 
阅 消息 的 应 用 程序 使 用 。 公布 让 有 
由 于 AMQP 是 一 个 网 络 协议 ， 在 网 络 不 可 靠 的 情况 下 ， 可 能 会 出 交换 机 
现 消 息 被 消费 者 读 取 后 ， 没 有 正常 处 理 消 息 的 情况 。TCP 中 有 ACK 确 


认 报 文 ，AMQP 也 有 类 似 的 消息 确认 概念 ， 当 消息 传递 给 消费 者 时 ， 路 由 
消费 者 会 自动 通知 代理 或 应 用 程序 开发 者 手动 通知 代理 。 当 开启 消息 确 队列 
认 功 能 时 ， 代 理 只 有 在 收 到 消息 的 确认 通知 后 才 会 从 队列 中 删除 这 个 Cs 


消息 。 
生产 者 产生 的 消息 首先 会 发 送 到 AMQP 的 交换 机 ， 交 换 机 接收 ”|、 消费 者 
消息 ， 将 消息 路 由 到 0 个 或 多 个 队列 。AMQP 代理 提供 4 种 交换 类 ”图 8.2 AMQP 模型 
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型 ， 分 别 是 直接 交换 (direct exchange) 、 扇 出 交换 (fanout exchange) 、 主 题 交 换 (topic 
exchange) 和 标 头 交换 (headers exchange) 。 默 认 的 交换 类 型 为 直接 交换 。 

直接 交换 根据 消息 中 的 路 由 键 值 将 消息 分 配 到 队列 。 直 接 交换 非常 适合 在 单 播 路 由 中 
使 用 ， 它 的 工作 方式 如 下 : 队列 通过 路 由 键 值 routing key) 天 与 交换 机 绑 定 ， 当 新 的 消 
息 到 达 时 ， 检 查 消息 中 的 键 值 R， 如 果 尺 等 于 玉 ， 则 将 消息 路 由 到 队列 中 。 直 接 交换 的 工 
作 方 式 如 图 8.3 所 示 。 


Touting_key=“ 周 杰 伦 ” 


routing_key="“JayZ” 


8.3 直接 交换 的 工作 方式 


扇 出 交换 将 消息 路 由 到 绑 定 它 的 所 有 队列 中 ， 这 时 routing key 将 被 忽略 。 如 果 有 六 个 
队列 绑 定 到 一 个 扇 出 交换 机 ， 当 有 新 消息 到 达 时 ， 新 消息 会 被 路 由 到 这 N 个 队列 中 。 这 种 
工作 方式 很 适合 消息 广播 的 场景 。 扇 出 交换 的 工作 方式 如 图 8.4 所 示 。 


订单 

队列 

交易 结算 
、 物流 

队列 


图 8.4 扇 出 交换 的 工作 方式 
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主题 交换 根据 routing key 与 队列 和 交换 机 之 间 绑 定 的 规则 ， 将 消息 路 由 到 一 个 或 多 个 
队列 。 这 种 交换 适合 于 消息 多 播 的 场景 。 

标 头 交换 有 点 类 似 于 直接 交换 。 消 息 中 的 标 头 属性 用 于 进行 路 由 ， 而 不 是 routing key。 

AMQP 中 的 队列 用 于 存储 消息 。 在 使 用 队列 前 必须 先 声明 队列 ， 如 果 队 列 不 存在 ， 则 
先 创建 一 个 队列 。 队 列 必须 要 有 一 个 名 字 。 队 列 可 以 设置 为 持久 化 的 ， 持 久 化 队列 会 将 消 
息 存 到 磁盘 ， 这 样 代理 服务 重启 后 ， 队 列 可 以 继续 运行 ， 不 丢失 数据 。 


8.1.4 使 用 RabbitMQ 


RabbitMQ 是 一 个 实现 了 AMQP 的 消息 代理 系统 。 该 系统 接收 并 且 转 发 消息 。 现 在 假 
定 本 地 已 搭建 起 了 一 个 RabbitMQ 服务 ， 服 务 监 听 的 卫 和 端口 分 别 是 127.0.0.1 和 5672。 

本 章 将 使 用 Pika 包 来 演示 如 何在 Python 中 使 用 RabbitMQ 服务 。 打 开 命令 行 工具 ， 使 
用 pip 安装 Pika 包 。 


命令 行 
$ pip install pika 
Collecting pika 

Downloading 
https://files.pythonhosted.org/packages/78/1a/28c98ee8b21lbe21d4a9f4ef1687c4d36f93 
02d47fcc28b81f9591abf6d8/pika-1.0.1-py2.py3-none-any.whl (148kB) 

100% | LESSKB 

1.0MB/s 
Installing collected packages: pika 
Successfully installed pika-1.0.1 


接 下 来 向 搭建 的 消息 代理 发 送 消 息 ， 我 们 连接 的 地 址 是 127.0.0.1: 5672， 如 果 使 用 的 
是 远程 RabbitMQ 服务 ， 则 需要 将 代码 中 的 连接 信息 修改 成 相应 的 网 络 信 息 ， 同 时 要 注意 
执行 代码 的 客户 端 机 器 和 远程 服务 的 防火 墙 配 置 。 


# send.py 文 件 

#!/usr/bin/env python 

Oing: 华人 = 和 二 二 二 

import pika 

# 创建 连接 

connection = pika.BlockingConnection (pika.ConnectionParameters('127.0.0.1', 5672)) 
channel = connection.channel() 

# 声明 队列 


channel .queue declare (queue='product ') 
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# 发 布 消息 

channel .basic publish (exchange="'', routing key='women'，bodqy='I love shoes') 
print(" [x] Sent 'I love shoes!'") 

# 关闭 连接 


connection.close() 


上 面 的 代码 首先 创建 了 一 个 到 RabbitMQ 服务 的 连接 对 象 。 在 发 送 消息 之 前 ， 需 要 先 
确认 队列 存在 ， 如 果 向 一 个 不 存在 的 队列 发 送 消息 ， 则 RabbitMQ 会 丢弃 这 个 消息 。 这 里 
我 们 声明 了 一 个 名 为 product 的 队列 。 

在 RabbitMQ 中 ， 消 息 不 能 直接 发 送 到 队列 中 ， 而 是 需要 一 个 交换 机 作为 中 转 。 这 里 
指定 的 exchange 是 一 个 空 的 字符 串 ， 意 味 着 使 用 默认 的 交换 机 ; 同时 指定 了 routing_key， 
指定 消息 应 该 去 哪个 队列 ;发 送 的 消息 为 “I love shoes”。 

为 了 方便 调试 ， 我 们 输出 一 条 信息 。 运 行 这 个 脚本 后 ， 如 果 能 看 到 “[x] Sent IT love 
shoes!” 这 样 的 消息 ， 说 明 消息 已 经 成 功 发 送 到 RabbitMQ 了 。 

接 下 来 看 消费 者 的 代码 。 消 费 者 需要 从 消息 队列 接收 消息 ， 对 消息 进行 处 理 ， 在 这 里 
把 接收 的 消息 简单 地 输出 到 屏幕 上 。 代 码 如 下 : 


,ee 1 se 
#!/usr/bin/env python 
# receive.py 文 件 
import pika 
# 创建 连接 
connection = pika.BlockingConnection( 
pika.ConnectionParameters('127.0.0.1', 5672)) 
channel = connection.channel () 
# 声明 队列 
channel .queue declare (queue='product') 
# 定义 回调 函数 
def callback(ch，method，Properties，body) : 
print(" [x] Received %r" % body) 
channel -basic consume ( 
queue="'product', on message callback=callback, auto ack=True) 
print(' [*] Waiting for messages. To exit press CTRL+C') 
# 开始 消费 消息 


channel. start consuming () 

消费 者 首先 要 连接 到 RabbitMQ， 确 定 队 列 是 否 存 在 ， 这 部 分 的 代码 和 生产 者 一 样 ， 值 
得 注意 的 是 ， 使 用 queue_declare 创建 队列 是 索 等 的 ， 可 以 多 次 运行 这 个 命令 ， 只 有 一 个 队 
列 会 被 创建 。 

从 队列 中 接收 消息 要 复杂 一 些 。 上 面 的 代码 演示 了 如 何 注 册 一 个 回调 函数 ， 每 次 接收 
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到 消息 ，Pika 库 都 会 调用 这 个 回调 函数 。 这 个 消费 者 会 进入 一 个 永远 不 会 停 的 循环 ， 等 待 
数据 并 调用 回调 函数 。 

这 里 先 执行 send.py， 然 后 执行 receivepy。 如 果 一 切 正 常 ， 则 send.py 会 输出 [x] Sent I 
love shoes!，receive.py 会 输出 接收 到 的 消息 。 输 出 结果 如 下 : 


# python send.py 

[x] Sent 'I love shoes! 

# python receive.py 

[*] Waiting for messages. To exit press CTRL+C 
[x] Received 'I love shoes!' 


(8.2) Django 和 Celery 框架 

在 使 用 RabbitMQ 作为 消息 中 间 件 时 ， 生 产 者 和 消费 者 的 代码 编写 不 可 避免 地 要 涉及 
诸多 与 RabbitMQ 相关 的 细节 ， 如 建立 连接 、 关 闭 连接 、 处 理 异常 等 。 在 应 该 专注 于 业务 
远 辑 的 代码 中 ， 关 心 这 样 的 细节 是 非常 烦 正 的 事情 。 

另外 ， 在 处 理 业务 逻辑 时 ， 可 能 会 遇 到 比较 复杂 的 情况 ， 如 一 个 任务 依赖 男 外 一 个 任 
务 的 执行 结果 等 。 在 业务 代码 上 看 编 码 类 似 的 逻辑 会 让 代码 最 终 变 得 难以 维护 。 因 此 ， 抽 
象 出 更 灵活 的 任务 模型 是 很 有 必要 的 。 本 节 将 要 介绍 的 Celery 框架 就 用 于 解决 类 似 的 问题 。 


8.2.1 任务 类 


Celery 是 基于 分 布 式 消 息 传递 的 异步 任务 框架 。 它 既 支 持 实时 的 操作 , 也 支持 按时 调度 。 
执行 的 最 小 单元 称 为 任务 ， 任 务 既 可 以 异步 执行 ， 也 可 以 同步 执行 。 

任务 类 是 Celery 应 用 的 核心 ， 它 既定 义 了 调用 任务 时 的 行为 〈 即 发 送 消息 ) ， 也 定义 
了 接收 消息 时 的 行为 。 每 个 任务 类 都 必须 有 一 个 独一无二 的 名 字 ， 发 送 的 消息 中 会 带 上 这 
个 名 字 ， 以 便 消费 者 能 够 找到 要 执行 的 正确 函数 。 

理想 情况 下 ， 任 务 函数 应 该 被 设计 为 蜂 等 的 ， 即 使 用 相同 的 参数 多 次 调用 该 函数 也 不 
会 产生 副作用 。 由 于 消费 者 无 法 检测 任务 是 否 窜 等， 所 以 默认 任务 不 徊 等 ， 在 执行 前 会 提 
前 确认 消息 ， 以 便 已 经 启动 的 任务 永远 不 会 再 次 执行 。 

如 果 在 设计 上 能 保证 任务 的 徊 等 性 ， 则 可 以 为 消费 者 设置 acks_late 属性 ， 让 消费 者 执 
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行 完 任务 后 再 确认 消息 。 如 果 消 费 者 在 执行 任务 的 过 程 中 挂 掉 ， 如 机 器 断 电 或 手动 终止 消 
费 者 进程 ， 那 么 确认 的 任务 会 发 送 给 另外 一 个 消息 者 来 执行 。 
可 以 使 用 task 装饰 器 来 创建 一 个 任务 类 ， task 装饰 对 象 必须 是 可 执行 的 ， 如 下 代码: 


from product .models import Product 
from celery import Celery 
# 创建 Celery 应 用 
apP = Celery('product') 
# 装饰 create_product 方 法 生成 一 个 新 的 任务 
@app.task 
def create product (title, descriotion): 
Product .objects.create (title=title, description=description) 


如 果 没 有 为 任务 明确 地 指定 名 字 ， 那 么 task 装饰 器 将 根据 定义 任务 的 模块 及 任务 函数 
名 称 来 自动 生成 一 个 名 字 。 也 可 以 在 创建 任务 时 显 式 地 指定 任务 的 名 字 ， 最 佳 的 做 法 是 使 
用 模块 名 作为 名 称 空间 ， 这 样 即使 在 另外 的 模块 中 定义 了 同一 个 名 称 的 函数 ， 也 不 会 产生 
冲突 ， 如 下 面 的 代码 : 


>>> @app.task (name='tasks.add') 
>>> def add(x，Y) : 

。。 return X + Y 

>>> add.name 

"task.add'" 


在 任务 执行 出 现 可 恢复 的 异常 时 ， 可 以 重 试 任务 ， 并 且 可 以 设置 重 试 的 次 数 ， 如 下 面 
的 伪 代 码 在 登录 微 博 失败 时 重 试 3 次 : 


Qapp.task (bind=True, max retries=3) 
def send weibo status(self, oauth, tweet): 
try: 
weibo = Weibo (oauth) 
weibo. update status (tweet) 
except (Weibo.FailWhaleError, Weibo.LoginError) as exc: 
raise self.retry (exc=exc) 


Celery 的 任务 一 共有 6 种 状态 ， 它 们 分 别 如 下 。 

@ PENDING: 表示 任务 正 处 于 等 待 执行 或 未 知 状 态 。 
STARTED: 表示 任务 已 经 开始 。 

SUCCESS: 表示 任务 执行 成 功 。 

FAILURE: 表示 任务 执行 失败 。 
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@ RETRY: 表示 任务 正在 被 重 试 。 
@ REVOKED: 表示 任务 已 经 被 撤销 。 
可 以 通过 调用 update state 方法 来 自 定 义 任 务 的 状态 ， 代 码 如 下 : 


@app.task (bind=True) 
def upload files (self, filenames): 
for i, file in enumerate (filenames): 
if not self.request.called directly: 
# 用 自 定义 的 状态 更 新 任务 状态 
self.update state (state='PROGRESS', 
meta={'current': i, 'total': len(filenames)}) 


8.2.2 ”在 Django 中 使 用 Celery 


Celery 3.1 版 本 及 以 后 版 本 均 支 持 Django， 因 此 不 需要 第 三 方 包 做 中 介 ， 在 Django 中 
可 以 直接 使 用 Celery 包 。 首 先 安装 Celery 包 ， 打 开 命 令 行 软件 ， 使 用 pip 安装 Celery。 代 
码 如 下 : 


$ pip install celery 
Collecting celery 

Downloading 
https://files.pythonhosted.org/packages/5c/al/a3dd9d8bfa09156ec2cba37f 
90accf35c0f4ecc3980d96cb4fb99e56504b/celery-4.3.0-py2.py3-none-any.whl 
(413KB) 

100s | 国 国 国 国 国 国 国 国 国 国 国 国 面 面 面 面 面 国 国 面 国 硬 面 国 国 面 面 国 硬 面 国 国 | 2 1 5 

449kB/s 
Installing collected packages: vine, amqp, Kombu, billiard, celery 
Successfully installed amqp-2.4.2 billiard-3.6.0.0 celery-4.3.0 kombu-4.5.0 
Vine-1.3.0 


要 在 Django 项 目 中 使 用 Celery， 必 须要 定义 一 个 Celery 实例 。 项 目 结构 如 下 : 


e_shoes/ 

上 一 manage.py 

一 一 e_shoes 
| 全 
上 一 settings.py 
上 -一 urls.py 
i 


上 -一 product 


ET 


推荐 新 建文 件 e_shoes/e_shoes/celerypy， 并 在 文件 中 声明 Celery 实例 ， 然 后 在 e_shoes/ 
e_shoes/_，init .py 文件 中 引入 声明 的 实例 。 代 码 如 下 : 


# 文件 e_shoes/e shoes/celery.py 

# coding: utf=8 

from _ future import absolute import, unicode literals 

import os 

from celery import Celery 

# 为 Celery 应 用 配置 Django 配 置 模块 

os.environ.setdefault ('DJANGO SETTINGS MODULE', 'e shoes.settings') 
app = Celery('e shoes') 

# 将 命名 空间 配置 为 CELERY, 所 有 的 Celery 相 关 配 置 都 应 该 有 CELERY 前 级 
app.config from object('django.conf:settings', namespace='CELERY') 
# 自动 发 现任 务 模块 


app. autodiscover tasks () 


# 文件 e_shoes/e shoes/_ init .py 

from _ future import absolute import, unicode literals 

from .celery import app as celery app 

a = (celeary app.) 

在 上 面 的 配置 中 ， 使 用 Django 的 配置 模块 作为 Celery 的 配置 ， 这 样 在 项 目 中 就 不 需要 
定义 多 个 配置 文件 了 。 然 后 定义 Celery 配置 的 命名 空间 CELERY， 这 意味 着 Celery 的 配置 
必须 要 以 CELERY_ 开头 ， 如 代理 配置 为 CELERY BROKER _URL。 

定义 任务 的 一 个 通用 做 法 是 在 应 用 目录 下 创建 一 个 task.py 文件 ， 在 其 中 定义 任务 ， 定 
义 了 Celery 实例 后 ， 还 必须 做 一 些 配 置 ， 让 Celery 应 用 可 以 正确 找到 消息 中 间 件 服务 、 存 
储 任务 结果 的 后 端 服务 和 任务 序列 化 格式 ， 如 下 面 的 代码 : 


# setting.py 文 件 

CELERY BROKER URL = "amqp://guest:guestel27.0.0.1//" 
CELERY ACCEPT CONTENT = [ 'json'] 

CELERY RESULT BACKEND = "amqp" 

CELERY TASK SERIALIZER = " json'" 


上 面 定 义 在 settings.py 文件 中 的 配置 都 是 以 “CELERY_ ”开头 的 ， 分 别 定 义 了 消息 中 
间 件 的 访问 地 址 、 任 务 的 序列 化 格式 、 任 务 结果 的 存储 后 端 和 可 接受 的 任务 格式 。 
完成 上 面 的 配置 后 ， 可 以 使 用 下 面 的 命令 行 开启 消费 者 服务 : 


# 命令 行 
Celery -A e_shoes worker -1 info 


现在 异步 系统 结构 就 变 成 了 图 8.5 所 示 的 结构 。 


生产 者 
Django 应 用 


消费 者 
Celery 应 用 

消费 者 

Celery 应 


消费 者 
Celery 应 用 


消息 中 间 件 
RabbitMQ 


生产 者 
Django 应 用 


8.5 异步 任务 系统 结构 


假设 现在 有 一 个 需求 ， 在 商品 创建 后 向 供应 商 发 送 电子 邮件 ， 我 们 可 以 用 新 建 的 异步 
系统 来 完成 该 需求 。 首 先 创建 e_shoes/product/tasks.py 文件 ， 在 其 中 定义 执行 电子 邮件 发 送 
的 任务 ， 之 后 在 创建 商品 的 视图 函数 中 调用 该 任务 。 

发 送 电子 邮件 的 任务 逻辑 如 下 : 获取 创建 的 产品 ， 得 到 相关 供应 商 电 子 邮 件 列表 ， 然 
后 调用 send_mail 发 送 电子 邮件 。 伪 代码 示例 如 下 : 


# e_shoes/product/tasks.py 文 件 
from e_ shoes.product import Product 
from e_shoes import app 
from django.core.mail import send mail 
@app.task 
def notify supplier(product id) : 
product = Product .objects.get (pk=product id) 
# 获取 供应 商 电子 邮件 , 返回 列表 , get supplier email 1ist 需 另外 实现 
email list = get supplier email list(product id) 
# 发 送 电子 邮件 
send mail( 
u' 新 商品 创建 了 '， 
u' 商 品 title:$s， 商 品 描述 : $s' % (product.title, product.description)， 
'no_reply@example e shoes.com', 
email list 
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视图 函数 的 逻辑 如 下 : 接受 创建 商品 的 请 求 ， 从 请 求 的 数据 中 创建 商品 对 象 ， 并 存储 
到 数据 库 中 ， 然 后 调用 notify_supplier 将 任务 发 送 到 消息 队列 中 。 代 码 如 下 : 


# ee 


shoes/product/views .py 文件 


from django.forms import formset factory 

from django.shortcuts import redner to response 

from product.forms import ProductModelForm 间 引入 模板 表单 类 
from product.tasks import notify supplier 


def 


manage products (request): 
if request.method == 'POST': 
form = ProductModelForm (request .POST) 
if form.is valid(): 
# 保存 数据 并 发 送 通 知 
data = form.save () 
notify supplier.delay(data.id) 
else: 
form = ProductModelForm() 
# 返回 泻 染 模板 


return render to response('manage products.html', "form' : form) 


视图 中 调用 notify_supplier 的 delay 方法 ， 将 任务 发 送 到 消息 队列 中 。 更 新 代码 后 ， 重 
新 启动 消费 者 ， 会 从 消息 队列 中 获取 并 执行 这 个 任务 。 


8.2.3 ”定时 任务 


系统 中 经 常 需要 定时 地 去 执行 一 些 任务 , 如 每 隔 半 个 小 时 检查 数据 库 中 是 否 有 脏 数据 ， 
每 天 上 午 9 点 向 老板 发 送 昨 天 的 数据 报表 等 。 简 单 的 任务 可 以 使 用 类 UNIX 系统 下 的 Shell 
脚本 编写 ， 使 用 crontab 来 执行 。 对 于 更 复杂 并 且 和 业务 相关 性 更 强 的 任务 ， 我 们 希望 使 用 
Python 语言 来 编写 ， 以 方便 维护 。 

Celery 框架 提供 的 beat 调度 器 可 以 帮助 我 们 解决 这 个 问题 。 这 个 调度 器 会 定期 发 布 任 
务 到 消息 队列 ， 然 后 由 集群 中 的 可 用 工作 节点 来 执行 任务 。 这 样 ， 之 前 的 异步 任务 系统 结 
构 就 变 成 了 图 8.6 所 示 的 结构 。 


使 用 


Celery beat 调度 器 必须 确保 只 有 一 个 beat 调度 程序 正在 运行 ， 不 然 会 有 重复 的 任 


务 发 送 到 消息 系统 中 。 这 是 一 个 中 心 化 的 系统 ， 这 意味 着 不 需要 同步 调度 器 之 间 的 状态 ， 
服务 可 以 在 不 用 锁 的 情况 下 运行 ， 同 时 意味 着 该 调度 器 面临 单 点 故障 风险 。 


生产 者 
Celery Beat 
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消费 者 
Celery 应 月 


生产 者 
Django 应 用 


消息 中 间 件 
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消费 者 
Celery 应 月 


生产 者 
Dijango 应 用 


消费 者 
Celery 应 上 


图 8.6 新 异步 任务 系统 


使 用 Celery beat 比较 好 的 实践 是 使 用 crontab 调度 类 型 ， 这 个 调度 类 型 的 语法 和 类 


UNIX 系统 下 的 crontab 非常 相似 ， 可 以 实现 灵活 调度 。 例 如 ， 在 每 周一 的 上 午 7 点 30 分 
向 老板 发 送 汇报 邮件 ， 代 码 如 下 : 


from celery.schedules import crontab 
app.conf.beat schedule = { 
# 每 周 周一 上 午 7 点 30 分 执行 
'boss-email-every-monday-morning': { 
'task': 'tasks.boss email', 
"schedule' : crontab (hour=7, minute=30, day_of week=1), 
"args': (), 
}, 
} 


使 用 crontab 类 型 的 调度 还 可 以 实现 很 多 调度 策略 ， 例 如 : 

@ crontab(): 每 分 钟 执行 一 次 。 

@ crontab(minute=0. hour=0): 每 天 午夜 执行 。 

@ crontab(minute=0. hour=*/3'): 每 隔 3 小 时 执行 一 次 。 

@ crontab(0, 0, day_of month='2'): 每 个 月 的 第 二 天 执行 一 次 。 

因为 调度 策略 和 时 间 有 关 ， 时 区 的 设置 是 必要 的 。Celery 会 用 到 Django 中 的 TIME 


ZONE， 也 可 以 通过 设置 CELERY TIMEZONE 来 指定 Celery 应 用 的 时 区 。 


要 启动 beat 服务 ， 可 以 在 命令 行 中 使 用 Celery 的 beat 子 命令 ， 也 可 以 将 beat 服务 代 入 


消费 者 服务 中 ， 不 过 在 生产 环境 中 并 不 推荐 这 样 做 。 
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非 
# 
$ 
# 
$ 


命令 行 

启动 Celery beat 服 务 

Celery -A e shoes beat 

把 beat 服 务 谋 入 在 消费 者 服务 中 ,在 生产 环境 中 不 推荐 这 样 做 


celery -A e shoes worker -B 


8.2.4 任务 路 由 


使 用 Celery 后 ，Celery 会 默认 在 消息 代理 上 创建 一 个 队列 。 如 果 需 要 执行 的 任务 不 多 ， 
则 可 以 只 使 用 Celery 默认 队列 ， 所 有 的 任务 都 会 转 到 同一 个 队列 中 。 

假设 有 A 和 B 两 类 任务 ，A 任务 执行 时 间 长 ，B 任务 执行 时 间 短 ， 同 时 有 一 个 队列 和 
四 个 消费 者 。 生产 者 先 发 送 10 个 A 任务 到 队列 ， 再 发 送 10 个 B 任务 ， 这 时 会 发 生 什 么 呢 ? 
我 们 会 发 现 所 有 的 消费 者 都 在 处 理 A 任务 ， 而 没有 消费 者 处 理 B 任务 。 

解决 方案 是 将 不 同 任务 发 送 到 不 同 的 队列 ， 然 后 由 不 同 的 消费 者 执行 任务 。Celery 提 
供 了 队列 和 任务 路 由 的 配置 ， 具 体 如 下 : 


# e_shopes/e_shoes/settings.py 文 件 
from kombu import Queue, Exchange 
# 声明 两 个 exchange, 分 别 命名 为 default 和 product 
default exchange = Exchange('default', type='direct') 
Product_exchange = Exchange('product', type="'direct') 
# 设置 default 和 product_tasks 队 列 
CELERY QUEUES = ( 
Queue ('default', default exchange, routing key='task.#'), 
Queue ('product tasks', product exchange, routing key='product.#'), 


) 
# 设置 默认 的 队列 名 为 default 
CELERY DEFAULT QUEUE = "default'" 
# 设置 默认 的 exchange 为 default 
CELERY DEFAULT EXCHANGE = "qdqefault" 
# 设置 默认 的 routing key 为 default 
CELERY DEFAULT ROUTING KEY = "task.default" 
# 将 一 个 任务 路 由 到 product _tasks 队 列 
CELERY ROUTES = { 
'product.tasks.boss notify': { 
'queue': 'product tasks', 
'routing key': 'product.notify', 
}, 
上 


上 面 的 配置 声明 了 两 个 转换 ， 分 别 命名 为 default 和 product; 声明 了 两 个 队列 ， 分 别 命 
名 为 default 和 product tasks。 在 CELERY QUEUES 中 配置 队列 和 exchange 的 绑 定 关系 。 
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设置 default 队列 为 默认 队列 ， 设 置 defualt exchange 为 默认 exchange。 

CELERY ROUTES 用 于 配置 任务 的 路 由 。 上 面 的 配置 将 product.tasks.boss_notify 任务 
发 送 到 product tasks 队列 中 。 

要 想 避 免 之 前 提 到 的 问题 ， 需 要 启动 两 个 消费 者 服务 ， 一 个 用 于 消费 default 队列 中 的 
任务 ， 另 一 个 用 于 消费 product_tasks 队列 中 的 任务 。 在 启动 消费 者 进程 的 时 候 可 以 通过 -Q 
指定 要 监听 的 队列 ， 在 命令 行 中 输入 如 下 命令 : 
命令 行 
监听 default 队 列 
celery -A e shoes worker -Q default 
监听 product tasks 队 列 ,需要 另外 开 一 个 命令 行 终端 
celery -A e_shoes worker -Q product tasks 

上 面 的 命令 会 分 别 启动 两 个 消费 者 服务 ， 一 个 用 于 消费 default 队列 中 的 任务 ， 另 一 个 
用 于 消费 product_tasks 队列 中 的 任务 。 


访 井 了 切 井 厅 


8.2.5 任务 工作 流 


之 前 主要 使 用 delay 方法 来 调用 任务 ， 使 用 delay 方法 能 满足 大 多 数 简单 的 业务 需求 。 
在 一 些 更 复杂 的 业务 场景 下 ， 可 能 需要 将 一 个 任务 作为 参数 传递 给 另 一 个 任务 。 

Celery 提供 了 签名 来 封装 单个 任务 ， 包 括 任务 调用 参数 、 执 行 选 型 ， 以 便 发 送 给 其 他 
函数 。 现 在 有 一 个 简单 的 相 加 运算 的 函数 add， 使 用 signature 创建 一 个 签名 : 


# tasks.py 文 件 

Q@app .task 

def add (X，Y) : 

return x+y 

# 命令 行 

>>> from celery import signature 

>>> s = signature('tasks.add', args=(2, 2), countdown=10) 


可 以 使 用 apply_async 的 link 参数 将 创建 的 签名 作为 回调 函数 传 入 。 任 务 只 有 在 执行 成 
功 的 情况 下 调用 回调 函数 ， 并 将 执行 的 结果 作为 参数 传递 给 回调 函数 。 例 如 ， 下 面 的 代码 
先 计算 2+2 得 到 4， 再 计算 4+8， 得 到 结果 12: 

# 命令 行 


# 将 签名 作为 回调 函数 传 入 
>>> add.apply async((2, 2), link=add.s (8)) 
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Celery 还 支持 其 他 签名 ， 如 group、chain、chord、map、startmap 和 chunks， 将 这 些 签 


名 组 合 起 来 使 用 可 以 完成 复杂 的 工作 流 。 


group 可 用 于 并 行 执行 多 个 任务 。 调 用 group 函数 ， 传 入 多 个 签名 作为 参数 会 生成 


一 个 新 的 group 签名 。 调 用 这 个 group 签名 会 在 当前 进程 中 依次 地 应 用 任务 ， 返 回 一 
GroupResult 对 象 ， 该 对 象 可 用 于 跟踪 执行 结果 ， 如 下 面 的 例子 : 


# 命令 行 

# 创建 有 两 个 任务 的 group 

>>> g = group(add.s(2, 2), add.s(4, 4)) 
# 执行 group, 计算 2+2 和 4+4 

>>> res = g() 

# 获取 group 执 行 结果 

>>> essget 检 

[4，8] 


之 前 已 经 提 到 使 用 link 进行 回调 ， 为 了 更 方便 地 将 任务 链接 在 一 起 ，Celery 提供 了 


chain 签名 ， 如 计算 (4+4) *8*10: 


# 命令 行 

>>> from celery import chain 

>>> from tasks import add，mul 

# 计算 (4+4) *8x10 

>>> res = chain(add.s(4, 4), mul.s(8), mul.s(10)) 
>>> res.get() 

640 


使 用 chord 签名 可 以 在 所 有 的 任务 完成 后 调用 回调 函数 ， 如 对 所 有 任务 的 执行 结果 求 和 ; 


# 命令 行 


>>> from celery import chord 

>>> res = chord((add.s(i, i) for i in xrange(10)), xsum.s())() 
>>> res.get() 

90 


map 签名 和 Python 自 带 的 map 工作 方式 类 似 ， 它 接收 一 系列 任务 ， 并 依次 执行 它们 ， 
如 下 面 的 例子 : 


# 命令 行 

>>> from tasks import xsum 

>>> ~xsum.map ([range (10), range(100)]) 
[45, 4950] 
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8.2.6 ”最 佳 实践 


第 一 个 实践 是 忽略 不 需要 的 结果 。Celery 默认 会 将 任务 执行 的 结果 存储 起 来 ， 存 储 结 
果 会 消耗 一 些 资源 和 时 间 。 如 果 任 务 执行 的 结果 不 重要 , 则 可 以 设置 ignore_result 忽略 结果 。 
这 个 配置 可 以 是 全 局 的 ， 也 可 以 在 创建 任务 和 执行 任务 时 配置 ， 如 下 面 的 例子 : 


# settings .py 文件 中 全 局 配置 

CELERY TASK IGNORE RESULT = True 

# 任务 声明 时 设置 ignore result 

Q@app.task (ignore result=True) 

def some task(): 

so_something () 

# 执行 任务 时 设置 ignore_result 

result = some task.apply async (ignore result=True) 

第 二 个 实践 是 避免 启动 同步 子 任务 。 让 一 个 任务 等 待 另外 一 个 任务 是 非常 低 效 的 ， 如 
果 消 费 者 进程 资源 耗 尽 , 则 可 能 还 有 死 锁 的 问题 。 可 以 使 用 回调 机 制 来 编排 之 前 的 任务 调度 ， 
使 其 异步 化 。 

第 三 个 实践 是 合理 使 用 Celery 的 异常 处 理 机 制 。 异常 处 理 是 很 多 开发 者 会 忽略 的 地 方 ， 
在 很 多 时 候 忽 视 任 务 的 失败 是 可 以 接受 的 。 但 有 时 候 任务 对 第 三 方 服务 有 依赖 ， 在 第 三 方 
服务 遇 到 偶发 性 错误 的 时 候 〈 如 网 络 错误 ) ， 任 务 也 会 失败 ， 遇 到 这 样 的 情况 ， 最 好 使 用 


Celery 自 带 的 异常 捕获 和 重 试 机 制 。 例 如 ， 在 捕获 到 网 络 异常 时 进行 重 试 : 


Q@app.task (bind=True, default retry delay=300, max retries=5) 
def my task a(): 
Ery2 
do_something () 
# 在 遇 到 网 络 问题 时 重 试 
except NetworkException as e: 
self.retry (e) 


第 四 个 实践 是 任务 中 不 要 传 入 数据 库 对 象 作为 参数 。 从 数据 库 获 取 的 对 象 最 好 不 要 直 
接 传 给 异步 任务 ， 因 为 在 任务 执行 的 时 候 ， 数 据 可 能 已 经 过 期 了 。 比 较 好 的 实践 是 传 入 数 
据 的 标识 〈 如 ID) ， 蜡 步 任务 在 执行 的 时 候 通过 标识 重新 获取 数据 。 

第 五 个 实践 是 添加 监控 。 现 在 开源 的 Hower 工具 提供 了 监控 的 网 页 。 安 装 flower 后 可 
以 使 用 celery 子 命令 启动 一 个 网 站 服务 ， 网 站 默认 的 端口 是 5555。 
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命令 行 

# 安装 Hower 包 

$ pip install flower 

# 运行 flower 服 务 

$ celery -A e shoes flower 


区 加 高 可 用 消息 队列 

消息 代理 在 IT 企业 中 有 着 广泛 的 应 用 ， 是 不 可 或 缺 的 中 间 件 。 消 息 代理 服务 一 旦 宕 机 ， 
对 所 有 依赖 于 该 服务 的 业务 都 会 产生 影响 ， 如 果 不 能 快速 恢复 ， 则 这 会 给 企业 带 来 巨大 的 
损失 。 因 此 ， 保 证 消息 代理 服务 的 高 可 用 性 是 非常 必要 的 。 


8.3.1 RabbitMQ 高 可 用 


前 面 我 们 演示 使 用 的 是 单 点 的 RabbitMQ 服务 ， 容 易 遇 到 单 点 故障 。 除 了 单 点 模式 外 ， 
RabbitMQ 还 支持 集群 模式 ， 可 以 在 单 点 不 可 用 的 情况 下 ， 维 持 服务 可 用 。RabbitMQ 集群 
如 图 8.7 所 示 。 


负载 均衡 器 
RabbitMQ 集 群 | 
节点 一 节点 二 节点 三 
rabbit@nodel rabbit@node2 rabbit@node3 


8.7 RabbitMQ 集群 


RabbitMQ 集群 中 没有 特殊 节点 ， 所 有 节点 的 地 位 都 是 对 等 的 。 节 点 之 间 通 过 hostname 
或 者 域名 互相 发 现 ， 并 且 互 相 之 间 使 用 相同 的 Cookie 来 验证 通信 。 

在 集群 中 ， 除 了 消息 队列 数据 ， 所 有 的 数据 和 状态 都 在 所 有 节点 之 间 复 制 。 要 在 多 个 
节点 之 间 同 步 消 息 队 列 数据 ， 可 以 通过 队列 的 镜像 ， 将 数据 发 布 到 各 个 节点 中 。RabbitMQ 
的 每 个 队列 都 有 一 个 主 节点 ， 该 节点 称 为 队列 主 节 点 。 所 有 对 该 队列 的 操作 都 要 先 通 过 主 
节点 ， 然 后 复制 到 其 他 节点 。 
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发 布 到 队列 的 消息 将 复制 到 所 有 镜像 节点 中 。 无 论 消费 者 连接 到 哪个 节点 ， 最 后 都 会 
连 到 队列 的 主 节点 上 。 主 节点 确认 消息 被 消费 后 ， 镜 像 节 点 会 丢弃 该 消息 。 因 此 ， 队 列 镜 
像 可 以 增强 服务 的 可 用 性 ， 但 不 会 跨 节 点 分 配 负载 。 

如 果 主 节点 发 生 故 障 ， 则 存在 最 久 的 镜像 节点 将 被 提升 为 新 的 主 节点 。 根 据 队 列 中 设 
置 的 镜像 参数 ， 未 完全 同步 的 镜像 节点 也 可 以 被 提升 为 主 节点 。 

将 所 有 的 节点 设置 为 镜像 节点 是 最 保守 的 选择 。 这 将 为 集群 中 的 所 有 节点 带 来 额外 的 
性 能 压力 ， 如 网 络 TO、 磁 盘 IO 和 存储 空间 的 使 用 。 在 大 多 数 情况 下 ， 没 有 必要 为 每 个 队 
列 中 的 所 有 节点 设置 镜像 。 

推荐 做 法 是 为 大 多 数 的 节点 设置 镜像 。 例如 , 若 有 5 个 节点 , 那 就 为 3 个 节点 设置 镜像 
若 有 3 个 节点 ， 那 就 为 2 个 节点 设置 镜像 。 


8.3.2 NSQ 系 统 


RabbitMQ 是 非常 优秀 的 开源 软件 ， 提 供 了 众多 优秀 的 工具 可 供用 户 使 用 ， 不 过 在 生产 
环境 中 ， 它 也 有 着 集群 难以 维护 和 扩展 的 问题 。 另 外 一 个 优秀 的 开源 消息 中 间 件 是 NSQ。 
NSQ 的 设计 非常 简单 ， 只 需要 理解 3 个 核心 概念 即 可 明白 。 
@ 主题 (topics ) : 程序 发 布 消息 的 逻辑 键 ， 在 程序 首次 发 布 消息 时 ,会 创建 主题 。 
@ 通道 (channels ) : 通道 和 “队列 ”有 点 相似 。 当 一 条 消息 发 送 到 主题 时 ， 这 条 消 
息 会 复制 到 所 有 相关 通道 中 。 消 费 者 将 从 指定 的 通道 中 读 取消 息 。 如 果 没 有 消费 者 
读 取消 息 ， 则 通道 会 保存 消息 并 排队 。 

@ 消息 (messages ): 消费 者 读 取 消息 后 ,可 以 选择 完成 消息 , 表明 消息 已 经 正常 处 理 ， 
或 者 对 它们 重新 排队 。 

NSQ 系统 的 架构 如 图 8.8 所 示 。 

如 图 8.8 所 示 ，NSQ 系统 主要 由 两 个 组 件 构成 : nsqd 和 nsqlookupd。 

(1) nsqd。nsqd 服务 是 NSQ 系统 的 核心 。 每 个 nsqd 节点 都 是 独立 运行 的 ， 相 互 之 间 
不 共享 状态 。 当 nsqd 节点 启动 时 ， 它 会 向 一 组 nsqlookupd 节点 注册 自己 ， 并 广播 哪些 主题 
和 通道 存储 在 该 节点 上 。 

(2) nsqlookupd。 nsqlookupd 集群 有 点 像 consul 或 者 etcd, 不 过 在 设计 上 没有 强 一 致 性 。 
每 个 nsqlookupd 都 存储 着 nsqd 节点 向 其 注册 的 数据 。 客 户 端 连接 到 nsqlookupd 节点 以 确定 
要 读 取 的 nsqd 节点 。 
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8.8 NSQ 系统 的 架构 


NSQ 的 协议 非常 简单 、 性 能 强大 且 易 于 运 维 。 它 在 设计 上 支持 分 布 式 部 署 ， 即 一 个 节 
点 不 可 用 ， 不 影响 其 他 节点 的 运行 ， 这 也 使 它 扩展 起 来 非常 容易 。 不 过 它 也 有 一 些 缺 点 ， 
如 不 支持 复制 〈 这 也 是 它 运 行 简单 的 原因 之 一 ) 。 


在 现代 云 架 构 中 ， 应 用 程序 被 分 解 为 多 个 规模 较 小 且 更 易于 开发 、 部 署 和 维护 的 独立 
构件 模块 。 使 用 消息 队列 可 以 为 这 些 分 布 式 应 用 程序 提供 通信 和 协调 。 使 用 消息 队列 可 以 
显著 简化 应 用 程序 的 编码 ， 同 时 提高 性 能 、 可 靠 性 和 可 扩展 性 。 

本 章 首先 讲解 了 什么 是 消息 队列 ， 以 及 在 应 用 程序 开发 和 运 维 中 使 用 消息 队列 的 好 
处 ; 然后 讲解 了 AMQP， 以 及 实现 AMQP 的 RabbitMQ 的 使 用 方法 ， 接 下 来 学 习 了 如 何 使 
用 Django 和 Celery 来 构建 一 个 简单 的 异步 任务 系统 。 消 息 队列 在 现代 软件 系统 中 占有 非常 
重要 的 位 置 ， 保 证 消息 队列 服务 本 身 的 稳定 性 和 高 可 用 性 是 非常 重要 的 。 最 后 我 们 学 习 了 
RabbitMQ 和 NSQ 这 两 个 非常 优秀 的 开源 消息 系统 高 可 用 的 架构 。 


国生 


练习 一 : 消息 队列 能 给 系统 带 来 什么 好 处 ? 
练习 二 : Celery 的 任务 一 共有 几 种 状态 ? 
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Web 应 用 程序 是 信息 安全 程序 的 一 个 分 支 , 专门 处 理 网 站 、Web 应 用 程序 和 Web 服务 的 安全 性 ; 
它 借鉴 了 应 用 程序 安全 性 的 原则 ， 但 专门 应 用 于 Internet 和 Web 系统 。 

本 章 主要 涉及 的 知识 点 : 

@ Django 安全 : 学 习 Django 中 的 安全 中 间 件 。 

@ 数据 安全 : 学 习 如 何 使 用 Django 保证 用 户 数据 安全 。 


保护 用 户 数据 是 网 站 设计 的 必要 部 分 ， 在 互联 网 安全 意识 日 益 加强 的 今天 ， 用 户 对 网 
站 的 安全 性 有 着 越 来 越 高 的 要 求 。 作 为 一 个 成 熟 的 框架 ，Diango 在 发 展 的 过 程 中 积累 了 许 
多 安全 方面 的 功能 ， 可 帮助 用 户 处 理 常见 的 问题 。 


9.1.1 跨 站 点 脚本 防护 


跨 站 点 脚本 (Cross Site Scripting，XSS) 是 Web 应 用 程序 中 一 种 常见 的 计算 机 漏洞 。 
在 XSS 攻击 中 ， 攻 击 者 将 恶意 客户 端 脚 本 注入 网 页 ， 当 其 他 用 户 在 浏览 器 上 打开 该 网 页 或 
单 击 某 个 按钮 时 ， 恶 意 脚本 将 会 执行 。 

Django 的 模板 系统 通过 转译 HTML 文本 中 “危险 ”的 特定 字符 来 应 对 XSS 攻击 。 例如， 
攻击 者 在 上 传 的 数据 中 包含 了 代码 : 


<script>alert ('Attacker alert');</script> 


如 果 简 单 地 把 这 部 分 代码 直接 在 浏览 器 上 泻 染 ， 则 用 户 打开 包含 恶意 代码 的 页 面 时 ， 
就 会 弹 窗 提示 “Attacker alert”， 这 无 疑 是 非常 不 好 的 体验 。 现 实 中 有 更 恶意 的 行为 ， 例 
如 ,社交 网 站 影响 力 较 大 的 用 户 中 了 木马 病毒 后 上 传 恶意 脚本 ,在 平台 上 扩散 计算 机 病毒 。 
XSS 攻击 的 模式 如 图 9.1 所 示 。 
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攻击 者 


3. 受 害 者 请 
求 数据 


受害 者 5 .受害 者 草 数据 
受 攻击 
图 9.1 XSS 攻击 的 模式 


为 了 应 对 可 能 存在 的 恶意 攻击 ， 在 泻 染 用 户 上 传 的 数据 时 ，Django 模板 会 将 这 部 分 数 
据 泻 染 成 


&lt;scriptggt;alert (g#39;Attacker alertg#39); &lt;/scriptggt; 


从 最 后 泻 染 的 结果 可 以 看 出 ，Django 将 “>” 替换 成 了 “&gt” 将 “<” 替换 成 了 “&lt”， 
将 “'” 替 换 成 了 “&#39; ”。 这 部 分 代码 的 实现 路 径 为 django/utils/html.py， 摘 录 如 下 : 


def escape (text): 
return mark safe(force text (text).replace('&', '&amp;')\ 
.replace('<','&lt;')\ 
.replace('>', '&gt;')\ 
.replace('"', '&quot;')\ 
“replace(™"™, "tt#39")) 


经 过 这 样 的 处 理 之 后 ， 浏 览 器 既 能 够 正常 显示 字符 <script>alert (“Attacker alert”) ; 
</script>， 也 不 会 执行 这 段 脚本 。 

XSS 攻击 也 有 可 能 来 自 其 他 不 受信 任 的 数据 源 ， 如 Cookie、Web 服务 的 返回 或 者 上 传 
的 文件 。 如 果 要 给 这 些 数据 “消毒 ”， 则 需要 另外 编写 代码 。 


9.1.2” 跨 站 点 伪造 请 求 防护 


跨 站 点 请 求 伪 造 (Cross-Site Request Forgery， CSRF) 是 一 种 攻击 ， 攻 击 者 迫使 终端 
用 户 在 其 已 通过 身份 验证 的 Web 应 用 程序 上 执行 不 需要 的 操作 ， 执 行 这 些 操作 无 须 用户 知 
青 或 同意 。 


恶意 网 站 可 以 通过 多 种 方式 传输 这 样 的 命令 ， 如 特制 的 图 像 标签 、 隐 藏 的 表单 和 


第 9 章 Django 与 安全 .一 159 


JavaScript XMLHttpRequest 请 求 。 如 果 用 户 不 幸 “ 中 招 ”， 则 攻击 者 可 以 强制 用 户 执行 状 
态 的 请 求 ， 如 转移 资金 、 更 改 电子 邮件 等 。 

攻击 者 为 了 达成 目的 ， 会 首先 生成 有 效 的 恶意 请 求 。 现 在 假设 您 正在 为 银行 开发 一 个 
网 站 ， 网 站 使 用 下 面 的 方式 完成 转账 : 


Post http://bank.com/transfer.do HTTP/1.1 acct=bobg&gamount=100 


攻击 者 (名 叫 “ 老 赵 ”) 现 在 创建 一 个 恶意 网 页 , 该 网 页 包含 银行 转账 的 表单 ,代码 如 下 : 


<form action="http://bank.com/transfer.do" method="POST"> 
<input type="hidden" name="acct" value=" 老 赵 "/> 
<input type="hidden" name="amount" value="100000"/> 
<input type="submit" value=" 查 看 我 的 图 片 "/> 

</form> 


用 户 打 开 攻 击 者 提供 的 网 页 , 单 击 “ 查 看 我 的 图 片 ”后 ，100000 元 人 民 币 就 被 转 到 “ 老 
赵 ” 的 账户 去 了 ， 如 图 9.2 所 示 。 


<form action= " http:bank.com/transfer.do " method= " POST " > 
<input type= " hidden " name= " acct " value= " 老 赵 " /> 
<input type= " hidden " name= " amount " value= " 100000 " /> 
<input type= " submit " value= " 查看 我 的 图 片 " /> 


银行 网 站 


图 9.2 CSRF 攻击 


Django 应 对 这 种 攻击 的 方式 是 在 表单 中 定义 包含 {9%csrf_token%} 的 模板 标记 。 此 令 牌 
将 包含 在 HTML 文本 中 ， 代 码 如 下 : 


<input type='hidden' name='csrfmiddlewaretoken' value='0QRWHNYV 
g776y2166mcvZ2qp8alrv41b8S81242J UWGZFAS5VHrVfL2mpH29YZ39PW' /> 


这 相当 于 Django 为 当前 用 户 和 当前 浏览 器 生成 了 一 个 特定 的 密 钥 ， 如 果 请 求 不 包含 该 
字段 ， 或 者 该 字段 不 正确 ， 则 该 请 求 将 被 Diango 服务 器 拒绝 。 这 样 ， 即 使 用 户 单 击 了 “ 查 
看 我 的 图 片 ” 按 钮 ， 由 于 攻击 者 并 不 知道 该 字段 的 存在 或 者 该 字段 的 值 ， 因 此 请 求 会 被 服 
务 器 拒绝 ， 转 账 行为 就 不 会 发 生 了 。 
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csrf token 是 默认 开启 的 标签 ， 泻 染 的 代码 路 径 为 django/template/defaulttags.py， 关 键 
代码 摘录 如 下 : 


class CsrfTokenNode (Node): 
def renderl(self, context): 


# 从 上 下 文中 获取 csrf_token 


csrf token = context.get('csrf token') 
if csrf token: 


if csrf token == "NOTPROVIDED' : 
return format html("") 
elsez 
# 泻 染 HTML 页面 


return format html ('<input type="hidden" name="csrfmiddlewaretokeny" 
value="{}">', csrf token) 


Django 将 CSRF 的 处 理 封装 成 了 中 间 件 CsrfViewMiddleware， 代 码 路 径 在 django/ 
middleware/csrfpy 文件 中 。 生 成 token 的 代码 摘录 如 下 : 


class CsrfViewMiddleware (MiddlewareMixin) : 
def process response(self, request, response): 


2 # 设置 token 


self. set token(request, response) 
response.csrf cookie set 


= True 


在 验证 请 求 时 ， 服 务 器 先 从 Cookie 中 获取 一 个 token， 如 果 该 token 不 存在 ， 则 服务 器 
拒绝 请 求 。 然 后 服务 器 从 表单 请 求 中 获取 token， 如 果 两 个 token 不 匹配 ， 则 服务 器 拒绝 
请 求 ， 如 果 匹 配 ， 则 服务 器 接受 请 求 。 关 键 代码 摘录 如 下 ;: 


def process view(self, request, callback, callback args, callback kwargs) : 
csrf token = 


| request .META.get ('CSRF COOKIE ' ) 
# 如 果 请 求 中 不 带 token, 则 服务 器 拒绝 请 求 


if csrf token is None: 


return self ._reject (request, REASON NO CSRF COOKIE) 
request csrf token = request.POST.get ('csrfmiddlewaretoken', '') 
if not compare salted tokens (request csrf token, csrf token): 


// 如 果 token 不 匹配 , 则 服务 器 拒绝 请 求 


return self. reject (request, REASON BAD TOKEN) 
return self. accept (request) 


Django 可 以 设置 全 局 或 特定 视图 禁用 CSRF。 全 局 禁用 的 方法 如 下 。 
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(1) 在 setting.py 中 ， 移 除 或 注释 掉 'django.middleware.csrf.CsrfViewMiddleware'。 
(2) 编写 禁用 的 中 间 件 ， 并 将 其 加 入 中 间 件 列表 中 。 示 例 代 码 如 下 : 


from django.utils.deprecation import MiddlewareMixin 
class DisableCsrfCheck (MiddlewareMixin): 
def process request (self, request): 

# 全 局 设置 不 检查 CSRF 


setattr (request, ' dont enforce csrf checks', True) 


可 以 使 用 csrf_exempt 装饰 器 禁用 单个 视图 CSRF 防护 。 示 例 代码 如 下 : 


from django.http import HttpResponse 
from django.views.decorators.csrf import csrf exempt 
# 配置 单 视图 不 检查 csrf 
@csrf exempt 
def my view (request): 
return HttpResponse('Hello world') 


注意 : 安全 无 小 事 ， 在 禁用 CSRF 防护 时 ， 一 定 要 考虑 周详 。 


9.1.3 ”SQL 注入 防护 


SQL 注入 是 一 种 代码 注入 技术 ， 用 于 攻击 数据 驱动 的 应 用 程序 ， 攻 击 者 将 恶意 的 SQL 
语句 插入 输入 字段 中 ， 服 务 器 一 旦 接受 输入 并 执行 ， 数 据 就 会 遭 到 攻击 。SQL 注入 通常 用 
于 攻击 网 站 ， 也 可 用 于 攻击 任何 类 型 的 SQL 数据 库 。 

SQL 注 入 攻击 可 让 攻击 者 算 改 现 有 数据 破坏 数据 或 使 其 不 可 用 和 成 为 数据 库 管理 员 ， 
图 9.3 所 示 是 一 个 SQL 注入 攻击 的 例子 。 


http://students.com?st SELECT*FROM students 
udentld=] or 1=1;-- WHERE id=1l or 1=1; 


攻击 者 获得 所 有 学 生 数据 返回 所 有 学 生 数据 


9.3 SQL 注入 攻击 


在 Django 中 ， 几 乎 每 次 处 理 数据 库 请 求 都 会 用 到 模型 和 QuerySet， 模 型 会 根据 数据 库 
驱动 程序 ， 生 成 正确 的 SQL 。 
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以 MySQL 的 插入 语句 为 例 ， 实 现 的 代码 路 径 为 django/db/models/sql/compilerpy， 实 现 
类 为 SQLInsertCompiler。 示 例 代 码 如 下 : 


class SQLInsertCompiler (SQLCompiler) : 
def as sql(self): 
result = ['INSERT INTO %s' % qn(opts.db table)] 
# 插入 字段 
Fesult.append(' (ss)' $ ', '.join(qn(f.column) for f in fields)) 


# 占 位 符 填 入 参数 
result.append ("VALUES (%s)" % ", ".join(placeholder rows[0])) 
params = [param rows[0]] 
return [(" ".join(result), tuple(chain.from iterable (params)))] 
def execute sql (self, return id=False): 
with self.connection.cursor() as cursor: 
for sql, params in self.as sql(): 
# 执行 查询 语句 
cursor .execute (sql, params) 


可 以 看 到 ，Django 使 用 参数 来 构造 查询 ， 即 查询 语句 和 参数 是 分 开 定义 的 。 这 是 因为 
参数 可 能 是 用 户 提供 的 ， 可 能 包含 不 安全 因素 。 语 句 的 转 义 将 由 底层 的 数据 库 驱 动 提供 。 

在 使 用 参数 化 查询 的 情况 下 ,数据 库 服务 器 不 会 将 参数 视 为 SQL 指令 的 一 部 分 来 处 理 ， 
而 是 在 数据 库 完 成 SQL 指令 的 编译 之 后 ， 才 套用 参数 运行 ， 因 此 即使 参数 含有 恶意 指令 ， 
由 于 已 经 编译 完成 ， 恶 意 指令 也 不 会 被 数据 库 所 运行 。 

另外 ，Django 支持 开发 者 编写 原生 SQL。 如 果 决 定 使 用 原生 SQL， 开 发 者 需要 自己 处 
理 参数 问题 。 例 如 ， 下 面 的 代码 将 参数 和 查询 语句 进行 了 分 离 : 

23>> iname. = “Doe 


>>> Person.objects.raw('SELECT * FROM myapp person WHERE last name = 
$s', [lname]) 


9.1.4 点 击 动 持 


恶意 站 点 将 另 一 个 正常 站 点 用 frame 内 嵌 进 来 ， 攻 击 者 捕获 用 户 在 正常 站 点 的 操作 和 
数据 ， 这 种 攻击 称 为 点 击 劫持 。 

防止 点 击 劫持 最 流行 的 方法 是 让 网 站 不 被 其 他 网 站 用 frame 媒 套 进来 。 实 现 这 种 防护 
有 两 种 方法 : X-EFrame-Options 头 和 JavaScript 破解 代码 。 
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Django 提供 的 中 间 件 XframeOptionsMiddleware 可 用 来 处 理 点 击 支持 ， 这 个 中 间 件 使 
用 X-Frame-Options 头 来 进行 防护 攻击 行为 ， 该 防护 方式 在 大 多 数 浏览 器 上 有 效 。 代 码 路 径 
为 django/middleware/clickjacking.py， 示 例 代码 如 下 : 


class XFrameOptionsMiddleware (MiddlewareMixin): 
def process response(self, request, response): 
if response.get ('X-Frame-Options') is not None: 
return response 


# 在 返回 中 添加 X-Frame-Options 

response['X-Frame-Options'] = self.get xframe options value (request, 
response) 
其 中 ，X-Frame-Options 的 默认 值 是 SAMEORIGIN， 表 示 只 允许 当前 站 点 嵌 套 内 容 。 
根据 需求 可 以 在 项 目的 settings.py 文件 中 修改 X FRAME _ OPTIONS 属性 来 改变 这 个 行 

为 ，X_ FRAME OPTIONS 属性 除了 SAMEORIGIN 外 ， 还 有 另外 两 个 选项 ， 具 体 如 下 。 

@ DENY: 不 允许 任何 域名 嵌 套 网 站 的 内 容 。 
@ ALLOW-FROM uri: 允许 指定 的 URI 嵌 套 当前 的 页 面 。 


9.1.5 ”访问 白 名 单 


在 某 些 情况 下 ，Django 使 用 客户 端 提供 的 Host 头 构造 URL。 可 以 通过 设置 ALLOWED 
HOSTS 列表 ， 让 服务 仅 接受 来 自 可 信和 主机 的 请 求 。 

ALLOWED HOSTS 列表 的 值 可 以 是 一 个 完整 的 域名 ， 如 www.example.com， 在 这 种 
情况 下 ， 它 们 将 与 请 求 的 主机 标 头 完全 匹配 〈 不 区 分 大 小 写 ， 不 包括 端口 ) 。 列 表 的 值 
也 可 以 是 一 个 子 域 通配符 ， 如 example.com， 在 这 种 情况 下 ，example.com、test.example. 
com、www.example.com 都 会 通过 验证 。 

默认 情况 下 ， 这 个 列表 是 一 个 空 的 列表 ; 在 开启 了 DEBUG 模式 的 情况 下 ， 这 个 列表 
的 默认 值 是 ["localhost"，"127.0.0.1"，"[: : 1]"]。 

实现 这 个 机 制 的 代码 路 径 为 django/http/request.py， 代 码 摘录 如 下 : 

class HttpRequest: 

def get host (self): 
# 获取 请 求 中 带 的 Host 


host = self. get raw host () 
allowed hosts = settings.ALLOWED HOSTS 
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分 离 出 域名 和 端口 

domain, port = split domain Port (host) 

## 判断 验证 是 否 成 功 

if domain and validate host (domain, allowed hosts) : 
return host 

else: 
raise DisablloedHost (msg) 


在 IT 企业 中 , 数据 是 核心 资产 。 数 据 丢 失 的 事件 一 旦 发 生 , 不 仅 会 造成 直接 的 经 济 损失 ， 
而 且 会 影响 企业 在 客户 和 用 户 心中 的 形象 和 信誉 。 因 此 ， 保 护 数据 是 一 件 非常 重要 的 工作 。 
数据 安全 涉及 多 个 方面 的 工作 ， 并 且 和 业务 的 相关 性 较 大 。 本 节 将 重点 讨论 应 用 层 的 防护 
和 Diango 框架 提供 的 安全 选项 。 


9.2.1 密码 保护 


很 多 时 候 ， 开 发 Web 应 用 需要 设计 一 个 用 户 系统 。 一 旦 系统 涉及 用 户 的 隐私 信息 ， 开 
发 者 必须 慎重 对 待 。 经 常 在 网 上 能 看 到 类 似 “CSDN 明文 存储 用 户 数据 被 泄露 ” 这 样 的 新 闻 ， 
这 样 的 事情 一 旦 发 生 ， 用 户 对 网 站 的 信任 度 会 直线 下 降 。 合 格 的 开发 者 要 把 保护 用 户 数据 
作为 重 中 之 重 。 这 其 中 首要 的 就 是 保护 账户 密码 。 用 户 账户 数据 库 经 常 被 黑客 入 侵 ， 假 如 
网 站 被 攻破 ， 必 须 采 取 有 效 措施 保护 用 户 的 密码 。 

很 明显 , 用 户 的 密码 不 能 明文 存储 ， 一 旦 数据 库 被 攻破 , 用 户 的 密码 也 就 泄露 了 。 所以， 
必须 采取 相应 措施 来 保护 密码 ， 以 防止 网 站 被 攻破 时 发 生 信息 泄露 事件 。 最 好 的 办 法 是 对 
密码 进行 加 密 。 

哈 希 算法 是 一 个 单 向 函数 。 它 可 以 将 任意 大 小 的 数据 转化 为 特定 长 度 的 “指纹 ”， 并 
且 无 法 被 反 向 计算 。 即 使 数据 源 只 做 了 一 丁点 儿 改 动 ， 哈 希 算法 的 结果 也 会 完全 不 同 。 这 
使 哈 希 算法 非常 适用 于 保存 密码 ， 因 为 我 们 需要 加 密 后 的 密码 无 法 被 破解 ， 同 时 能 保证 正 
确 校 验 每 个 用 户 的 密码 。 使 用 Python 的 hashlib 示例 如 下 : 

# 命令 行 | 

>>> import hashlib 

>>> hashlib.sha256 ("hello") .hexdigest () 
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'2cf24dba5fb0a30e26e83b2ac5b9e29elbl6le5clfa7425e73043362938b9824" 

>>> hashlib.sha256 ("hello") .hexdigest () 

'2cf24dba5fb0a30e26e83b2ac5b9e29elbl6le5clfa7425e73043362938b9824" 

>>> hashlib.sha256 ("hbllo") .hexdigest () 

'58756879c05c68dfac9866712fad6a93f8146f337a69afe7dd238f3364946366" 

不 过 ， 黑 客 依然 能 够 通过 一 些 方法 来 破解 密码 ， 其 中 比较 典型 的 有 字典 攻击 、 暴 力 破 
解 和 查 表 法 。 

破解 哈 希 加 密 算 法 最 简单 的 方式 是 尝试 猜测 密码 ， 对 猜测 的 值 进行 哈 希 ， 并 检查 结果 
是 否 等 于 被 破解 的 哈 希 值 。 如 果 相 等 ， 那 么 猜测 的 值 就 是 正确 的 密码 。 采 用 字典 攻击 方式 
的 攻击 者 会 使 用 一 个 文件 ， 这 个 文件 包含 单词 、 短 语 、 公 共 密 码 和 其 他 可 能 用 作 密 码 的 字 
符 串 。 攻 击 者 使 用 文件 中 的 字符 串 一 个 个 去 匹配 密码 ， 匹 配 成 功 的 话 ， 就 找到 了 密码 。 暴 
力 破解 的 方式 类 似 ， 采 用 该 方式 的 攻击 者 会 尝试 每 个 可 能 的 字符 组 合 去 匹配 密码 ， 如 果 匹 
配 成 功 ， 就 找到 了 密码 。 

相 比 起 来 ， 查 表 法 的 效率 比较 高 。 这 种 方法 会 准备 好 一 份 数据 ， 里 面包 含 可 能 的 密码 
及 密码 对 应 的 哈 希 值 。 在 攻击 时 ， 只 需要 遍历 数据 中 的 哈 希 值 ， 并 将 其 与 目标 哈 希 值 进行 
比 对 ， 就 能 找到 正确 的 密码 。 

查 表 法 之 所 以 能 起 作用 ， 是 因为 对 相同 的 密码 进行 哈 希 运算 ， 其 结果 是 一 样 的 。 我 们 
可 以 加 入 一 个 随机 的 因子 来 避免 这 种 攻击 ， 加 入 的 随机 数 称 为 “ 盐 ”。 在 检查 密码 是 否 正 
确 的 时 候 ， 我 们 也 需要 “ 盐 ”， 因 此 它 通常 与 哈 希 结果 一 起 存储 在 数据 库 中 。 加 “ 盐 ” 后 ， 
生成 密码 的 过 程 如 图 9.4 所 示 。 


图 9.4 ” 哈 希 加 盐 生 成 密码 


盐 值 确保 攻击 者 不 能 使 用 查 表 法 之 类 的 攻击 方法 来 快速 破解 密码 ， 但 是 它 不 能 阻止 暴 
力 破解 和 字典 攻击 。 高 端 显卡 和 自 定义 硬件 每 秒 可 计算 数 十 亿 个 哈 希 值 ， 因 此 这 些 攻 击 依 
然 有 效 。 

为 降低 暴力 破解 的 攻击 速度 ， 可 以 使 用 慢 哈 希 函数 来 对 密码 进行 加 密 ， 让 攻击 者 即使 投 
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入 价格 高 昂 的 设备 ， 仍 不 能 在 短 时 间 内 破解 成 功 。 常 用 的 慢 哈 希 算法 有 PBKDF2 和 bcrypt。 


在 这 方 


，Django 提供 了 一 个 非常 好 的 例子 。Django 采用 哈 希 加 盐 方法 来 保存 密码 ， 


并 且 默 认 使 用 了 PBKDF2 算法 。 代 码 路 径 为 django/contrib/auth/hashers.py， 生 成 密码 的 代 


码 如 下 : 


class PBKDF2PasswordHasher (BasePasswordHasher): 
# 算法 为 pbkdf2 sha256 

algorithm = "pbkdf2 sha256" 

间 迭代 次 数 

iterations = 180000 

digest = hashlib.sha256 


9.2.2 


def 


def 


encode (self, password, salt, iterations=None): 

# 生成 密码 , 密码 构成 为 算法 + 迭代 次 数 + 盐 + 哈 希 值 

hash = pbkdf2 (password, salt, iterations, digest=self.digest) 
hash = base64.b64encode (hash) .decode ('ascii') .strip() 

return "%s$%d$%s$%s" $$ (self.algorithm, iterations, salt, hash) 
verifyl(self, password, encoded): 

# 解析 出 算法 、 和 迭代 次 数 、 盐 和 哈 希 值 

algorithm, iterations, salt, hash = encoded.split('$', 3) 
assert algorithm == self.algorithm 

# 计算 出 哈 希 值 , 并 将 其 与 存 入 的 哈 希 值 进行 比 对 

encoded 2 = self.encode (password，salt，int(iterations)) 
return constant time compare (encoded，encoded 2) 


安全 连接 


用 户 在 享受 互联 网 带 来 的 便利 时 ， 也 容易 受到 欺骗 和 攻击 。 例 如 ， 攻 击 者 拦截 在 用 户 
和 某 个 用 户 常 用 的 网 站 之 间 ， 收 取 双 方 消息 ， 并 注入 新 的 消息 ， 以 达到 获取 用 户 身份 、 银 
行 卡 等 有 价值 的 信息 的 目的 ， 这 种 攻击 方式 称 为 “中 间 人 攻击 ”， 如 图 9.5 所 示 。 


9.5 中间人 攻击 


要 防范 “中 间 人 攻击 ”， 在 网 站 上 采用 HTTPS 是 很 好 的 方式 。HTTPS 是 超 文本 传输 
协议 的 扩展 ， 它 能 够 使 计算 机 网 络 进行 安全 通信 。HTTPS 使 用 传输 层 安 全 (Transport Layer 
Security，TLS) 协议 或 安全 套 接 层 (Secure Sockets Layer，SSL) 对 通信 进行 加 密 。 

服务 端 和 客户 端 仍然 使 用 HTTP 进行 通信 ， 在 通信 过 程 中 通过 安全 连接 来 加 密 和 解密 
它们 的 请 求 和 响应 。HTTPS 主要 做 了 两 件 事 : 

(1) 对 访问 的 网 站 进行 身份 验证 ; 
(2) 传输 过 程 中 保护 交换 数据 的 隐私 和 完整 性 。 

客户 端 和 服务 端 之 间 采 用 了 双向 加 密 ， 可 以 防止 窃听 和 自 改 数据 ， 这 在 一 定 程度 上 保 

证 了 用 户 浏览 网 页 时 不 会 被 冒名 顶替 者 欺骗 。HTTPS 建立 连接 的 过 程 如 图 9.6 所 示 。 


客户 端 服务 端 
客户 端 Hello 客户 端 Hello 字 段 
client Version 
服务 端 Hello cipher suites 
compression method 
服务 端 Hello 完 成 random 
二 session id 
校 “| 交换 密 钥 服务 端 Hello 字 段 
验 中 client i 
交换 加 密 套件 A 
i compression method 
完成 cipher 
交换 加 密 套件 
完成 
加 密 数据 


9.6 HTTPS 建立 连接 过 程 


从 形式 上 看 ，SSL/TLS 证 书 只 是 一 个 文本 文件 ， 任 何人 都 可 以 利用 一 些 现 有 的 工具 轻 
易 创 建 一 个 证 书 。 防 止 这 种 情况 的 有 效 办 法 是 数字 签名 。 它 允许 一 方 验证 另 一 方 的 合法 性 。 
有 两 种 情况 可 以 让 用 户 信任 一 个 证 书 ; 

(1) 这 个 证 书 在 用 户 信任 的 证 书 列表 中 ; 

(2) 这 个 证 书 能 够 证 明 自己 被 证 书 列表 的 证 书 控制 器 所 信任 。 

第 一 种 情况 很 简单 。 计 算 机 和 浏览 器 都 会 预先 安装 来 自 证 书 颁发 机 构 (CA) 的 可 
信 SSL 证 书 列表 。 用 户 可 以 查看 、 添 加 、 删 除 这 些 证 书 ， 在 现实 场景 中 ， 这 些 证 书 会 由 
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Symantec、Comodo 等 非常 安全 、 可 靠 性 高 的 组 织 来 颁发 。 第 二 种 情况 会 复杂 一 些 ， 需 要 用 
到 数字 签名 。 

SSL/TLS 证 书 会 用 到 公 钥 / 私 钥 对 。 公 钥 作 为 证 书 的 一 部 分 被 公开 ， 而 私 钥 需要 得 到 
很 好 的 保护 。 这 对 非 对 称 密 钥 通过 在 SSL 握手 中 用 于 交换 双方 的 另 一 个 密 钥 来 对 数据 进行 
加 密 和 解密 ， 即 客户 端 使 用 服务 器 的 公 钥 来 加 密 对 称 密 钥 ， 并 将 其 安全 地 发 送 到 服务 器 ， 
然后 服务 器 使 用 其 私 钥 对 其 进行 解密 。 任 何人 都 可 以 使 用 公 钥 进行 加 密 ， 但 只 有 服务 器 可 
以 使 用 私 钥 进行 解密 。 

数字 签名 的 使 用 正好 相反 。 证 书 由 一 个 权威 机 构 “ 签 署 ”， 权 威 机 构 在 证 书 上 记录 “我 
们 已 经 证 实 此 证 书 的 控制 者 拥有 对 证 书 上 列 出 的 域名 具有 控制 权 ”。 

记录 的 方式 如 下 : 授权 机 构 使 用 其 私 钥 对 证 书 的 内 容 进 行 加 密 ， 并 将 该 密 文 附加 到 证 
书 上 ， 作 为 数字 签名 。 任 何人 都 可 以 使 用 授权 机 构 的 公 钥 解密 这 个 签名 进行 验证 。 因 为 只 
有 授权 机 构 才能 使 用 私 钥 加 密 内 容 ， 所 以 只 有 授权 机 构 能 够 真正 创建 一 个 有 效 的 签名 。 

因此 ， 如 果 服 务 器 生成 拥有 由 Symantec 公司 签署 的 微软 证 书 ， 那 么 浏览 器 不 必 相 信 它 。 
只 需要 用 Symantec 公司 的 公 钥 来 验证 证 书 上 的 签名 ， 如 果 有 效 ， 那 这 个 证 书 就 是 合法 的 。 
Symantec 公司 会 采取 措施 确保 其 签署 的 组 织 确实 拥有 microsoft com 域名 。 如 果 客 户 端 信任 
Symantec 公司 ， 那 么 也 可 以 信任 该 证 书 。 

在 技术 上 ， 用 户 并 不 需要 验证 是 否 应 该 信任 发 送 证 书 的 一 方 ， 而 是 应 该 信任 证 书包 
含 的 公 钥 。SSL 证 书 是 完全 公开 的 ， 因 此 任何 攻击 者 都 可 以 获取 微软 证 书 ， 拦 截 客户 对 
microsoft.com 的 请 求 ， 并 向 其 提供 合法 证 书 。 

但 是 ， 在 实际 通信 中 ， 客 户 端 会 从 证 书 中 获得 微软 公 钥 ， 并 用 它 来 加 密会 话 。 由 于 攻 
击 者 没有 微软 私 铀 ， 因 此 无 法 解密 用 户 上 传 的 数据 ， 通 信也 就 无 法 进行 了 。 

对 于 Django 应 用 来 说 ， 如 果 想 要 得 到 HTTPS 提供 的 保护 ， 并 在 服务 器 上 启用 ， 可 能 
还 需要 一 些 配置 : 

(1) 设置 SECURE_SSL_REDIRECT 为 True， 这 会 将 HITP 的 请 求 重 定 向 到 HTTPS。 

(2) 如 果 浏览 器 最 初 通过 HTTP 连接 (这 是 大 多 数 浏 览 器 的 默认 设置 ) ， 现 有 的 
Cookie 可 能 已 经 泄露 了 。 这 时 应 该 设置 SESSION_COOKIE SECURE 和 CSRF_COOKIE_ 
SECURE 为 True， 告 诉 浏览 器 仅 通过 HTTPS 连接 发 送 这 些 Cookie。 

以 上 配置 有 些 是 Diango 应 用 直接 响应 用 户 请 求 时 需要 设置 的 。 按 照 LNMP 
(Linux+tNginx+MySQL+Python) 架构 ， 应 该 由 Nginx 来 处 理 HTTPS 相关 的 配置 。 假 设 服 
务 的 域名 是 www.example.com，Django 应 用 监听 的 卫 和 端口 分 别 为 172.0.0.3 和 8080， 对 


应 的 Nginx 配置 示例 如 下 : 


upstream e shoes { 
server 172.0.0.3:8080; 
} 


Server { 
listen 443 ssl; 
server name WWW .example.com; 
551_certificate Www .example.com.chained.crt; 


551_certificate key www.example.com.key; 
location / { 
proxy pass http://e_ shoes; 


} 
9.2.3 ”请 求 签 名 


使 用 HTTPS 也 不 能 完全 保证 通信 安全 。 如 果 攻 击 者 用 某 种 方式 让 用 户 相信 了 假冒 的 证 
书 和 公 钥 ， 那 么 其 还 是 能 够 进行 中 间 人 攻击 的 。 在 这 种 情况 下 可 以 使 用 密码 签名 ， 以 判断 
请 求 和 相应 的 数据 是 否 被 攻击 者 算 改 。 请 求 签名 多 用 于 下 面 的 场景 : 

(1) 生成 “ 找 回 账 号 ”链接 ， 让 遗忘 了 密码 的 用 户 找 回 账号 ; 
(2) 确保 表单 中 的 数据 没有 被 算 改 ; 
(3) 生成 一 次 性 秘密 的 URL 来 允许 对 某 些 资源 临时 访问 ， 如 生成 下 载 文件 的 链接 。 

Django 提供 了 一 些 有 用 的 API 来 帮助 开发 者 对 数据 进行 加 密 签名 。 当 使 用 startproject 
命令 创建 新 的 项 目 时 ，settings.py 文件 中 会 有 一 个 SECRET _ KEY 变量 ， 这 个 变量 是 签名 数 
据 的 关键 ， 必 须要 妥善 保护 。 

Django 用 于 签名 的 代码 位 于 django.core.signing 模块 中 ， 使 用 示例 如 下 : 


# python manage.py shell 

>>> from django.core.signing import Signer 
>>> signer = Signer() 

# 对 数据 进行 签名 

>>> value = signer .sign(u' 测 试 数据 ') 

# 签名 结果 包含 原 数据 和 签名 值 

>>> Value 
1"Nxe6\xb5\x8b\xe8\xaf\x95\xe6\X95\xb0\xe6\x8d\xae:m0f77CkGkq0bh29FXkoOtwddq3oaI" 
# 还 原 值 

>>> origin = signer.unsign(value) 

>>> Origin 
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ET 


u'\u6d4b\u8bd5\u6570\u636e' 
# 对 签名 后 的 数据 进行 修改 后 , 不 能 正确 还 原 
>>> Value += "m" 
>>> origin = signer.unsign (value) 
Traceback (most recent call last): 

File "<console>", line 1, in <module> 

File "/usr/local/lib/python2.7/site-packages/django/core/signing.py", 
line 181, in unsign 

raise BadSignature('Signature "%s" does not match' % sig) 

BadSignature: Signature "m0f77CkGkq0bh29FXkQtwdd30aIm" does not match 


可 以 看 到 ， 调 用 sign 方法 对 数据 签名 后 ， 得 到 的 结果 包含 了 原 数据 和 签名 。 签 名 结果 


调用 unsign 方法 能 成 功 还 原 数据 ; 如 果 对 签名 结果 有 修改 ， 将 抛 出 signing.BadSignature 
异常 ， 这 意味 着 数据 已 被 算 改 。 


和 加 密 密 码 一 样 ， 如 果 不 希望 相同 的 字符 串 每 次 出 现 都 具有 一 样 的 签名 ， 则 可 以 在 签 


名 的 时 候 “ 加 点 儿 盐 ”。 示 例 代码 如 下 : 


# python manage.py shell 

>>> value = signer.sign(u' 测 试 数据 ') 

>>> signer .sign(u' 测 试 数据 ') 
'\xe6\xb5\x8b\xe8\xaf\x95\xe6\x95\xb0\xe6\x8d\xae:m0f77CkGkqO0bh29FXkQtwdd3o0al' 
>>> signer = Signer (salt='extra') 

>>> value = signer.sign(u' 测 试 数据 ') 
"ANxe6\xb5\x8b\xe8\xaf\x95\xe6\x95\xb0\xe6\x8d\xae:Lh9jRP23SIj095gDN6WCZxV- ]j8" 
>>> signer.unsign(value) 

u'\u6d4b\u8bd5\u6570\u636e' 


另外 ，Dijango 还 提供 了 TimestamSigner 来 验证 数据 是 否 在 指定 时 间 签 名 ， 如 果 过 了 签 


名 时 间 ， 将 抛 出 异常 。 示 例 代码 如 下 : 


# Python manage.py shell 

>>> from django.core.signing import TimestampSigner 

>>> signer = TimestampSigner () 

>>> value = signer.sign('hello') 

>>> signer.unsign(value) 

u'hello' 

>>> signer.unsign(value, max age=1) 

SignatureExpired: Signature age 16.0660870075 > 1 seconds 
>>> signer.unsign(value, max age=100) 

who 
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9.2.4 ” 重 放 攻击 


即使 使 用 HTTPS 保证 了 通信 安全 ， 攻 击 者 仍然 可 以 捕获 到 通信 流量 。 尽 管 不 知道 流量 
内 容 的 含义 ， 攻 击 者 却 仍然 可 以 使 用 抓 取 的 流量 重新 构造 数据 报 文 ， 对 服务 再 次 发 起 请 求 
或 延迟 一 段 时 间 后 发 起 请 求 ， 以 达到 自己 的 特殊 目的 。 这 种 攻击 手段 称 为 “ 重 放 攻击 ”。 

例如 ， 用 户 A 在 向 网 站 验证 身份 时 ， 需 要 发 送 自己 的 用 户 名 和 密码 ;攻击 者 窃听 了 这 
次 的 验证 请 求 ， 并 保留 了 请 求 的 数据 报 文 。 随 后 攻击 者 向 网 站 验证 身份 时 ， 发 送 自己 保留 
的 报 文 。 服 务 器 以 为 发 送 请 求 的 是 用 户 A， 通 过 验证 ， 此 时 攻击 者 就 能 以 A 的 身份 登录 网 
站 了 。 重 放 攻 击 的 过 程 如 图 9.7 所 示 。 


9.7 ” 重 放 攻击 的 过 程 


防止 重 放 攻击 通用 的 思路 是 为 每 一 次 会 话 或 请 求生 成 一 个 独一无二 且 只 能 使 用 一 次 的 
标识 。 应 对 重 放 攻击 有 4 种 比较 常见 的 手段 。 

第 一 种 手段 是 生成 会 话 令 牌 。 工 作 方式 如 下 : 

(1) 服务 端 生 成 一 次 性 使 用 的 令 牌 并 将 其 发 送 给 客户 端 。 客 户 端 用 这 个 令 牌 转换 密码 
并 发 送 给 服务 端 。 

(2) 服务 端 用 令 牌 对 存储 的 密码 进行 同样 的 计算 ， 与 上 传 的 结果 进行 匹配 。 

(3) 只 有 在 匹配 成 功 的 情况 下 才 验 证 用 户 登 录 成 功 。 

(4) 攻击 者 捕获 双方 的 通信 报 文 ， 并 向 服务 端 发 起 登录 请 求 ; 服务 端 此 时 生成 不 同 令 
牌 并 返回 。 攻 击 者 截取 的 流量 中 的 令 牌 和 此 时 服务 端的 令 牌 不 一 致 ， 因 此 验证 不 通过 。 

第 二 种 手段 是 生成 一 次 性 密码 〈OTP) 。 它 和 会 话 令 牌 很 类 似 ， 生 成 的 密码 会 在 一 段 
时 间 后 过 期 。 例 如 ， 谷 歌 验证 器 生成 的 就 是 一 次 性 密码 。 

第 三 种 手段 是 使 用 随机 数 和 消息 验证 码 。 

第 四 种 手段 是 时 间 戳 。 采 用 这 种 方式 ， 服 务 端 需要 定时 广播 ， 在 时 间 上 和 客户 端 达 成 
同步 。 客 户 端 在 发 起 请 求 的 时 候 带 上 当前 的 时 间 戳 ， 服 务 端 结合 自己 的 时 间 对 收 到 的 时 
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间 戳 进行 验证 。 只 有 当前 时 间 和 请 求 的 时 间 戳 的 差 值 在 一 定时 间 范 围 内 时 ， 服 务 端 才 接 
受 请 求 。 

下 面 通 过 一 个 例子 来 演示 如 何 通过 验证 时 间 戳 来 应 对 重 放 攻击 。 客 户 端 和 服务 端 约定 : 
将 请 求 头 重 的 nonce 字段 中 的 值 作为 校 验 的 对 象 ， 客 户 端 和 服务 端 约定 好 密 钥 对 ， 客 户 端 
持 有 公 钥 ， 服 务 端 持 有 私 钥 ， 用 于 对 nonce 字段 的 值 进行 加 密 和 解密 。 

对 于 包含 隐私 数据 的 请 求 ， 客 户 端 每 次 都 会 带 上 nonce 值 ， 客 户 端 生成 nonce 并 带 入 
请 求 。Python 示例 代码 如 下 : 


import time 

import request 

nonce = int(time.time()) 

# 请 求 主页 

r = requsts.get ("https://e_shopes.example.com/login", headers={"nonce": nonce}) 


服务 端 收 到 请 求 后 ， 将 nonce 头 提 取出 来 ， 与 服务 器 当前 时 间 惟 进行 比较 ， 如 果 当 前 
时 间 小 于 nonce 或 者 超过 nonce 60s， 则 服务 端 将 拒绝 请 求 。 在 实际 场景 中 ， 并 不 是 所 有 的 
视图 都 需要 验证 nonce， 因 此 可 将 验证 nonce 功能 实现 为 一 个 装饰 器 ， 方 便 添 加 。 验 证 装饰 
器 的 实现 示例 如 下 : 


# coding=utf-8 
from functools import wraps 
from django.utils.decorators import available attrs 
import time 
# 装饰 器 名 为 nonce_validate 
def nonce validate(): 
def nonce validate(view func): 
Q@wraps (view func, assigned=available attrs (view func)) 
def wrapped view (request, *args, **kwargs): 
# 从 请 求 中 获取 nonce 值 
nonce = request.META.get ("HTP nonce", None) 
if nonce: 
time interval = int (time.time()) - int (nonce) 
# 不 满足 条 件 则 抛 出 异常 
if time interval < 0 or time interval > 60: 
raise Exception (u"nonce 验 证 失败 ") 
# 获取 nonce 失 败 抛 出 异常 
else: 
raise Exception (un 缺少 nonce 头 ") 
return view func(request, *args, **kwargs) 
return wrapped view 
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return nonce validate 
# 使 用 示例 
Q@nonce validate 
def my view (request): 
pass 


如 果 要 对 所 有 的 请 求 都 进行 时 间 戳 验证 ， 则 可 以 用 同样 的 验证 逻辑 实现 一 个 中 间 件 。 
在 实际 场景 中 ， 客 户 端 和 服务 端 一 般 会 约定 密 钥 对 来 对 nonce 值 进 行 签名 和 验证 。 验 证 的 
过 程 稍微 复杂 一 些 ， 我 们 会 在 第 10 章 继续 讲解 。 


互联 网 上 存在 着 别 有 目 的 的 黑客 组 织 ， 他 们 会 用 各 种 手段 套 取 他 人 的 信息 ， 这 些 攻击 
手段 有 跨 站 点 脚本 攻击 、 跨 站 点 伪造 请 求 攻击 、SQL 注入 攻击 、 点 击 劫持 、 中 间 人 攻击 、 
重 放 攻 击 等 。 

Django 框架 提供 了 大 量 工具 来 应 对 这 些 攻 击 。 这 些 工具 大 多 以 中 间 件 的 形式 嵌入 应 用 
中 ， 使 用 起 来 非常 方便 。 本 章 介绍 了 这 些 攻击 手段 的 原理 和 从 源码 中 分 析 Django 应 对 这 些 
攻击 的 方式 。 另 外 ， 本 章 还 介绍 了 密码 加 密 技 术 和 HITPS 工作 原理 ， 并 以 加 密 签名 技术 为 
例 介绍 了 多 种 应 对 重 放 攻 击 的 方式 。 


ww 练 “ 习 


问题 一 : 我 们 能 完全 避免 暴力 破解 吗 ? 为 什么 ? 
问题 二 : HTTPS 的 证 书 是 如 何 工 作 的 ? 
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在 实际 运行 中 ， 网 站 可 能 有 多 种 用 户 ， 不 同 用 户 使 用 网 站 的 方式 是 不 同 的 。 例 如 ， 对 于 简单 电 
商 网 站 来 说 ， 其 有 终端 用 户 、 供 应 商 和 网 站 管理 员 3 种 不 同类 型 的 用 户 。 系 统 应 该 能 够 识别 不 同类 
型 的 用 户 的 身份 ， 并 且 对 不 同类 型 的 用 户 开放 不 同 的 资源 访问 权限 。 

本 章 主 要 涉及 的 知识 点 : 

@ 认证 系统 : 学 习 多 种 验证 用 户 身份 的 方法 和 如 何在 Django 中 实现 这 些 方法 。 

@ 访问 控制 策略 : 学 习 多 种 访问 控制 策略 和 如 何 应 用 这 些 策略 。 


的) 认证 方式 

用 户 身 份 验证 是 用 来 确认 尝试 登录 或 访问 资源 的 用 户 标识 的 过 程 ， 是 保护 网 站 和 用 户 
数据 安全 的 必要 措施 。 在 互联 网 发 展 的 历史 中 出 现 了 多 种 认证 用 户 的 方法 ， 它 们 有 着 各 自 
的 特定 应 用 场景 。Django 提供 了 一 些 现成 的 工具 ， 使 用 这 些 工 具 可 以 很 方便 地 开发 或 自 定 


10.1.1 _ HTTP 基本 访问 认证 


HTTP 基本 访问 认证 是 一 种 简单 的 认 ， 
证 方式 ， 大 家 经 常 使 用 的 用 户 名 加 密码 
登录 方式 很 多 时 候 就 是 采用 了 这 种 认证 方 
式 。 在 这 种 认证 方式 中 ， 请 求 需要 包含 | | 
Authorization 头 ， 内 容 为 Basic < 凭证 >， 本 返 四 401 未 授权 | 
凭证 字符 串 是 由 冒号 连接 用 户 名 和 密码 ， | 
然 后 用 Base64 进 行 编码 后 的 结 果 。HTTP ;QWxhZGRpbjpPcGVuU2VzY Wi1| 
基本 访问 认证 流程 如 图 10.1 所 示 。 : | 网 | 校 验 
与 Django 认证 相关 的 模块 郑 在 diamgo 或 4030 《没有 权限 ) ”作证 
contrib.auth 中 ， 需 要 做 一 些 配置 来 开启 。 修 
改 settingspy 文件 中 的 INSTALLED APPS 10.1 HTTP 基本 访问 认证 流程 


: 请 求 网 页 GET/ 


和 MIDDLEWARE CLASSES 配置 ， 代 码 如 下 : 


# settings .py 文件 
INSTALLED APPS = [ 
# 身份 验证 框架 的 核心 应 用 , 包含 默认 的 模型 
"django .contrib.auth'， 
# 允许 权限 与 创建 的 模型 相关 联 
"django .contrib.contenttypes' 


MIDDLEWARE = [ 
# 管理 会 话 的 中 间 件 
'django.contrib.sessions.middleware.SessionMiddleware', 
# 使 用 会 话 将 用 户 与 请 求 相关 联 
'django.contrib.auth.middleware.AuthenticationMiddleware', 


借助 Django 提供 的 工具 ， 可 以 很 方便 地 在 服务 端 实 现 基本 访问 认证 的 功能 。 示 例 代码 
如 下 : 


We el EE 
from functools import wraps 
# 装饰 器 实现 基本 认证 功能 
def http basic auth(func): 
@wraps (func) 
def decorator(request, *args, **kwargs): 
from django.contrib.auth import authenticate, login 
if request .META. has_ key('HTTP AUTHORIZATION'): 
# 获取 Authorization 头 
authmeth, auth = request.META['HTTP AUTHORIZATION'] pl ey 
# 如 果 采 用 basic 认 证 方式 
if authmeth.lower() == 'basic': 
# 解码 用 户 名 和 密码 
auth = auth.strip() .decode ('base64') 
username, password = auth.split(':', 1) 
# 验证 用 户 ,并 登录 
user = authenticate (username=username, password=password) 
if user: 
login (request, user) 
return func(request, *args, **kwargs) 
return decorator 


第 10 章 Django 和 访问 控制 一 175 一 一 一 一 一 


Django 项 目 开发 实战 


在 上 面 的 代码 中 ， 首 先 从 请 求 中 获取 Authorization 头 的 内 容 ，Django 会 将 所 有 的 头 
加 上 HTTP_ 前 级 ， 并 将 其 转换 为 大 写 形式 ， 因 此 获取 Authorization 头 的 代码 为 request. 
META[HTTP_ AUTHORIZATION]。 

如 果 获 取 到 头 内 容 ， 则 将 其 用 Base64 进行 解码 ， 获 取 用 户 名 和 密码 ， 尝 试 进行 验证 和 
登录 。http_basic_auth 是 一 个 装饰 器 ， 实 现 了 基本 访问 控制 功能 。 使 用 示例 如 下 : 


@http basic auth 
Q@login required 
def my view(request): 


10.1.2 访问 令 牌 


在 客户 端 调用 服务 端 API 时 ， 访 问 令 牌 是 常用 的 认证 方式 。 访 问 令 牌 可 以 是 不 透明 的 
字符 串 或 JSON Web 令 牌 。 令 牌 告诉 API 服务 ， 令 牌 的 持 有 者 已 被 授权 访问 API 并 被 授权 
执行 某 些 特定 操作 。 访 问 令 牌 的 工作 方式 如 图 10.2 所 示 。 


sec 


| POST/api/login HTTP/1.1 
带 上 用 户 身份 凭据 


返回 | 
access_token: u4qnlunMrSWqc 

| yitTV06gH5C8ZIAaWar 

;请 求 带 上 bearer 
:GET/api/dashboard HTTP/1.1 
! Authorization:Bearer | 
! udqnlunMrS WacyitTVOGgHSC8ZIAaWar 


10.2 ”访问 令 牌 的 工作 方式 


让 


访问 令 牌 的 优点 如 下 。 

(1) 令 牌 是 无 状态 的 。 令 牌 包含 了 验证 所 需 的 所 有 信息 ， 这 样 使 服务 器 不 必 存 储 会 话 
状态 ， 有 利于 系统 的 弹性 伸缩 。 

(2) 令 牌 的 生成 和 验证 分 离 。 这 使 “ 单 点 登录 ”实现 起 来 很 方便 。 
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(3) 访问 控制 粒度 的 控制 更 细 。 通 过 令 牌 可 以 轻松 指定 用 户 角色 和 权限 ， 以 及 用 户 可 
以 访问 的 资源 。 

JSON Web 令 牌 (JWT) 是 现在 流行 的 令 牌 实现 方式 。 一 个 JWT 包含 3 部 分 : 头 、 有 
效 载 荷 和 签名 。 对 头 和 有 效 载荷 进行 Base64 编码 后 ， 用 一 个 “.” 将 其 连接 起 来 ， 最 后 通过 
算法 生成 签名 。 

头 记录 一 些 令 牌 的 元 数据 ， 包 括 令 牌 类 型 和 用 于 签名 的 哈 希 算法 。 有 效 载荷 包含 令 牌 
的 声明 数据 。 一 个 JWT 的 例子 如 下 : 


eyJ0eXAioiJKV1QiLCJhbGcioiJIUzI1NiJ9.eyJtZXNzYWdlIjoiSldUIFJl1bGVzISIsIm 
1hdCcI6MTQ10OTQOODExOSwi2ZXhwIjoxNDU5NDUONTE5fQ@.-yYIVBD5b73C75osbmwwshQONRC7 
frWwUYrqaTjTpza2y4 


令 牌 内 容 并 没有 加 密 ， 因 此 需要 加 入 签名 ， 以 防止 信息 内 容 被 自 改 。 如 果 不 知道 签名 
的 密 钥 ， 而 对 信息 进行 了 自 改 ， 则 服务 端 进行 校 验 时 会 判定 校 验 不 合法 ， 从 而 拒绝 请 求 。 

现在 基于 Django 实现 一 个 简单 的 JWT 验证 功能 。JWT 的 实现 采用 pyjwt， 首 先 对 其 进 
行 安装 和 测试 ， 代 码 如 下 : 


Successfully installed pyjwt-1.7.1 

# Python 命 令 行 

>>> import jwt 

# 生成 JwT 

>>> encoded jwt = jwt.encode({'some': "payload'}, 'secret', algorithm='HS256') 
>>> encoded jwt 
"eyJhbGcioiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJzb211I]joicGF5bG9hZzCJ9.4twEt5Nizn 
N84AWOOl1d7KOl1T yoc0Z6XOpOVswacP2Zg" 

# 解析 出 JWT 

>>> jwt.decode (encoded jwt, 'secret', algorithms=['HS256']) 

{u'some': u'payload'} 


接 下 来 在 视图 中 实现 生成 JWT 的 功能 ， 实 现 的 逻辑 如 下 : 先 从 请 求 中 获取 用 户 的 凭据 
(简单 起 见 , 假设 采用 用 户 名 加 密码 的 形式 ), 验证 通过 后 生成 JWT, 返回 给 用 户 。 代码 如 下 : 


import jwt, json 

from django.contrib.auth import authenticate 
# 简单 起 见 ,使 用 Django 自 带 的 0ser 模 型 

from django.contrib.auth import User 

from django.http import JsonResponse 
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from django.views import View 
from django -conf import settings 
# 基于 类 的 视图 
class Login (View) : 
def post (self, request, *args, **kwargs): 
# 从 请 求 中 获取 用 户 名 和 密码 , 这 里 忽略 实现 
username, password = get credentials (request) 
# 验证 用 户 
user = authenticate (username=username, password=password) 
# 用 户 验证 通过 
if user: 
payload = {'id': user.id, 'email': user.email} 
jwt token = {'token': jwt.encode (payload, settings.SECRET KEY)} 
# 返回 jwt_token 
return JsonResponse (jwt_ token, status_code=200) 
# 验证 失败 
else: 
return JsonResponse({'err' :'Unauthorized'}, status code=401) 


在 用 户 获 取 到 JWT 后 ， 下 次 请 求 会 在 Authorization 头 中 带 上 这 个 令 牌 ， 服 务 端 接受 令 
牌 后 ， 先 对 令 牌 进行 验证 ， 验 证 通过 后 正常 返回 数据 。 代 码 如 下 : 


import jwt 
import json 
from django.conf.settings import SECRET KEY 
from django.http import JsonResponse 
# 简单 起 见 ,使 用 Django 自 带 的 user 模 型 
from django.contrib.auth import User 
class IndexView (View): 
def get (self, request, *args, **kwargs): 
# 获取 Authorization 头 
authmeth, jwt token = request.META['HTTP AUTHORIZATION'] .split(' ', 1) 
if authmeth.lower() == 'bearer': 
# 从 头 中 获取 签名 算法 
alg = json.loads (jwt token.split ('.') [0] .decode ('base64')) .get ('alg') 


# 获取 有 效 载荷 
payload = jwt.decode (jwt token, SECRET KEY, algorithms=[alg]) 
try: 


user = User.objects.get (email=payload['email'], 
id=payload['id'], is active=True) 
except User.DoesNotExist: 
return JsonResponse({'err' :'Unauthorized'}, status_ code=401) 
# 正常 返回 数据 
data = {} 
return JsonResponse(data, status code=200) 
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以 上 实现 相当 简单 。 在 实际 应 用 中 ，JWT 会 带 有 令 牌 的 生命 周期 、 用 户 的 操作 权限 等 
内 容 ， 读 者 应 该 根据 业务 需求 自行 定制 。 


10.1.3 ”签名 验证 


在 对 安全 性 要 求 较 高 的 场景 下 ， 有 时 候 会 用 到 签名 验证 。 签名 会 以 下 列 方式 保护 请 求 。 

(1) 验证 请 求 者 的 身份 。 签 名 可 确保 具有 有 效 访问 密 钥 的 人 员 发 送 了 请 求 。 

(2) 保护 传输 数据 。 为 了 防止 请 求 在 传输 过 程 中 被 算 改 ， 请 求 中 的 一 些 元 素 会 被 用 来 
计算 请 求 的 摘要 ， 并 将 摘要 包含 在 请 求 中 。 

(3) 防止 潜在 的 重 放 攻击 。 可 以 设置 请 求 的 有 效 声明 周期 ， 超 过 某 个 时 间 范 围 的 请 求 
将 被 拒绝 。 

要 完成 签名 验证 ， 用 户 首先 要 生成 一 个 密 钥 ， 通 常服 务 器 会 提供 一 些 工具 来 帮助 用 户 
生成 这 样 的 密 钥 ， 用 户 和 服务 器 都 保存 这 个 密 钥 。 签 名 验证 的 过 程 如 图 10.3 所 示 。 


f 1 创建 请 求 | | | / 
AccessKe 一 2. 创 建 签名 
Action= 对 请 求 内 容 使 用 3. 发 送 给 服务 端 请 求 
Paramter=... SecretKey 加 密 和 内 容 + 签名 
Tmestamps. 编码 得 到 签名 
2 
| dm 
6. 比 对 签名 5 服务 端 创建 签名 
如 果 相 等 ， 验 证 对 请 求 内 容 使 用 ee 
通过 ， 如 果 不 等 ， SecretKey 加 密 和 到 SecretKey 
验证 失败 编码 得 到 签名 
Re 


图 10.3 ”签名 验证 的 过 程 


现在 以 一 个 GET 请 求 为 例 来 简单 实现 应 用 了 签名 认证 的 请 求 和 响应 。 在 请 求 开始 前 ， 
用 户 生 成 了 密 钥 ACCESS_SECRET KEY 和 该 密 钥 的 标识 ACCESS_ KEY _ ID， 服务 器 通过 
ACCESS KEY ID 能 够 找到 密 钥 。 客 户 端 生成 请 求 的 示例 代码 如 下 : 

# coding=utf-8 


import hashlib, hmac 
# 使 用 requests 库 发 起 HTTP 请 求 
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ET 


import requests 

请 求 凭据 

ACCESS KEY ID = “XXXXXXXX 

SECRET ACCESS KEY = 'xXXXXXXXX" 

# GET 方 法 

method = "GET'" 

endpoint = "http://example.shoes.com' 


# 请 求 的 资源 地 址 

canonical uri = '/' 

# 请 求 参 数 

Parameters = {'action': 'get product', 'version': '2019-05-21'} 
# 签名 算法 


algorithm = 'HMAC-SHA256"' 
def get signature(alg, http method, request parameters, uri): 
# 生成 签名 加 入 Authorization 头 
# 参数 进行 排序 
sorted parameters = sorted (request parameters.items(), key=lambda d: d[0]) 
canonical querystring = "&".join(p[0]+"="+p[1] for p in sorted parameters) 
canonical request = http method + '\n' + uri + '\n' + canonical querystring 
# 签名 
string to sign = alg + '\n' + '\n' + hashlib.sha256( 
canonical request.encode('utf-8')).hexdigest () 
sign = hmac.new (SECRET ACCESS KEY, string to sign.encode('utf-8'), 
hashlib.sha256) .hexdigest () 
return sign 
signature = get signature (algorithm, method, parameters, canonical uri) 
# 构建 Authorization 头 
authorization header = 'CANONICAL ' + algorithm + ' ' + ACCESS KEY ID + ' ' + signature 
headers = {'Authorization': authorization header} 
# 发 送 请 求 


r = requests .get (endpoint, headers=headers, params=parameters) 


在 客户 端 使 用 requests 包 来 发 送 HTTP 请 求 ， 使 用 前 需要 先 安装 。 为 了 保证 参数 的 顺 


序 不 影响 最 终 的 签名 ， 在 签名 前 对 参数 做 排序 ， 生 成 新 的 参数 字符 串 。 在 Authorization 头 
中 注 明 签名 算法 、ACCESS_ KEY ID 和 签名 ， 发 送 给 服务 端 。 


服务 端 收 到 请 求 后 ， 首 先 提取 Authorization 头 ， 取 出 签名 算法 、 用 户 的 访问 密 钥 和 签 


名 ; 然后 计算 出 新 的 签名 , 并 将 其 和 Authorization 中 的 签名 进行 比较 , 如 果 相等 则 验证 通过 ， 
如 果 不 相等 则 拒绝 请 求 。 代 码 如 下 : 


def some View (request) : 

authmeth, alg, access key, signature = request.META['HTTP AUTHORIZATION']. 
| 

Secret Key = get secret key(access key) 

if request.method == 'GET': 
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sign = get signature(alg, request.method, request.GET, request.path, 
Secret key) 
if sign == signature: 


elses 
return HttpResponse ("Authorized fail",status code=401) 


10.1.4 OAnuth2 验 证 


我 们 在 前 面 章 节 中 做 的 女士 鞋 网 站 现在 调整 业务 方向 ， 调 整 后 ， 网 站 的 主要 顾客 是 职 
场 女性 。 因 此 ， 考 虑 从 职场 网 站 一 一 领 英 获取 一 些 用 户 数据 用 于 业务 。 

许多 流行 的 Web 应 用 程序 允许 第 三 方 软件 开放 API 访问 其 服务 。 采 用 这 样 的 方式 可 以 
方便 多 种 设备 接 入 服务 。 这 种 开放 式 API 能 为 Web 带 来 便利 ， 并 使 各 种 服务 能 够 合作 产生 
更 大 的 价值 。 不 过 ， 目 前 很 难 在 保证 用 户 数据 安全 的 前 提 下 提供 这 样 的 功能 。 

API 通常 需要 对 用 户 的 敏感 操作 进行 身份 验证 。 例 如 ， 用 户 登 录 网 站 ， 必 须 提供 自己 
的 用 户 名 和 密码 。 第 三 方 应 用 程序 要 想 访 问 用 户 的 账户 ， 只 能 将 用 户 赁 据 保 存 到 服务 器 ， 
在 需要 授权 的 时 候 提供 凭据 。 

虽然 这 种 实现 很 简单 ， 但 是 会 产生 大 量 问题 。 较 大 的 问题 之 一 是 用 户 没 有 简单 的 方法 
来 撤销 单个 应 用 程序 的 访问 权限 。 从 第 三 方 Web 应 用 中 删除 自己 的 凭据 可 能 特别 困难 ， 用 
户 最 后 只 能 修改 自己 的 密码 。 

用 户 需 要 的 是 一 个 细 粒 度 的 授权 系统 ， 允 许 其 有 选择 地 为 各 个 应 用 程序 授予 可 撤销 的 
权限 ， 而 无 须 提 供 全 局 密码 。 一 些 非常 流行 的 网 站 〈 如 谷歌 、 脸 书 、 微 信 、 新 浪 等 ) 都 提 
供 了 这 样 的 OAuth 系统 。OAnuth 现在 有 两 个 版 本 : 1.0a 和 2.0， 这 两 个 版 本 彼此 不 兼容 ， 现 
在 2.0 版 本 更 为 流行 ， 下 面 提 到 的 OAuth 统一 指 OAuth 2.0 版 本 。 

OAnuth 验证 流程 中 有 以 下 4 个 参与 者 。 

@ 资源 所 有 者 : 拥有 资源 服务 器 中 数据 的 实体 ， 一 般 是 终端 用 户 。 

@ 资源 服务 器 : 用 于 存储 数据 ， 提 供 API 供 访问 。 

@ 客户 端 : 一 般 是 第 三 方 应 用 ， 想 要 访问 用 户 在 资源 服务 器 上 的 数据 。 

@ 授权 服务 器 : 提供 OAuth 授权 的 服务 器 。 

授权 码 认证 是 OAuth 的 黄金 标准 ， 其 认证 流程 如 图 10.4 所 示 。 
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用 户 
(资源 所 有 者 ) 
1. 访 问 客户 端 
2. 请 求 用户 授 权 
B. 用 户 对 应 用 授权 | 
端 及 .返回 
He 4 返回 模 权 码 | 认证 服务 加 
用 户 代 理 
(一 般 是 网 页 
浏览 器 ) 
We 
5. 申 请 令 牌 
6. 返 回 令 牌 


图 10.4 ”授权 码 认 证 流程 


下 面 将 以 领 英 网 站 为 例 , 展示 如 何 使 用 Django 开发 第 三 方 应 用 来 实现 OAuth 验证 登录 。 
首先 要 在 领 英 网 站 上 创建 一 个 应 用 ， 获 得 客户 端 编号 (用 LINKEDIN _ OAUTH2 KEY 


表示 ) 和 密码 (用 LINKEDIN OAUTH2 SECRET 表示 ) ， 配 置 重 定向 网 址 为 https: // 
example.shoes.com/complete/linkedin-oauth2 和 http: //127.0.01/complete/linked-oauth2。 


我 们 使 用 python-social-auth 包 完 成 验证 功能 ， 该 包 支 持 对 领 英 网 站 的 验证 。 安 装 该 包 ， 


代码 如 下 : 


Installing collected packages: oauthlib, python-openid, urllib3, 
certifi, chardet, idna, requests, requests-oauthlib, social-auth-core, 
Python-social-auth 

Successfully installed certifi-2019.3.9 chardet-3.0.4 idna-2.8 oauthlib-3.0.1 
Python-openid-2.2.5 python-social-auth-0.3.6 requests-2.22.0 requests- 
oauthlib-1.2.0 social-auth-core-3.1.0 urllib3-1.25.2 


接 下 来 将 此 包 注 册 到 应 用 中 ， 需 要 修改 INSTALLED_APPS 和 TEMPLATES 配置 ， 并 
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加 入 新 的 AUTHENTICATION BACKENDS 配置 。 示 例 代码 如 下 : 


# settings.py 
# app 配 置 
INSTALLED APPS = ( 
'social app', 
'social.apps.django app.default', 


) 
# 模板 配置 
TEMPLATES = [ 
{ 
'BACKEND': 'django.template.backends.django.DjangoTemplates', 
'DIRS': [os.path.join(BASE DIR, 'templates')], 
'APP DIRS': True, 
"OPTIONS': { 
'context processors': [ 
'social.apps.django app.context processors.backends', 
'social .apps.django app.context processors.login redirect', 
]， 
}, 
}, 


] 

# 客户 编号 

SOCIAL AUTH LINKEDIN OAUTH2 KEY = 'YOUR KEY' 

# 客户 密码 

SOCIAL AUTH LINKEDIN OAUTH2 SECRET = 'YOUR_SECRET' 
SOCIAL AUTH LOGIN REDIRECT URL = '/home' 
SOCIAL AUTH LOGIN URL = '/' 


配置 完成 后 ， 更 新 URLConf 配置 ， 加 入 登录 、 退 出 功能 ， 同 时 编写 对 应 的 视图 函数 和 
对 应 的 模板 。 示 例 代 码 如 下 : 


# urls.py 文 件 
urlpatterns = [ 
url('', include('social.apps.django app-.urls', namespace="'social')), 
url(r'^$', 'shopes app.views.1login'), 
url(r'^home/$', 'shopes app.views.home'), 
url(r'^logout/$', 'shopes app.views.logout'), 


] 


# views .py 文件 

from django.shortcuts import render to response, redirect 
from django.contrib.auth import logout as auth logout 
from django.contrib.auth.decorators import login required 
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from django.template.context import RequestContext 
from django.http import HttpResponse 
# 登录 视图 
def login (request) : 
return render to response('login.html', context=RequestContext (request) ) 
# 主页 视图 ,要求 登录 
Qlogin required(login url="'/"') 
def home (request): 
return Response("<hl>Welcome</hl><br><p><a href="/logout">Logout</a>") 
# 退出 视图 
def logout (request): 
auth logout (request) 
return redirect('/') 
<!-- login.html 登 录 的 模板 文件 --> 
{% if user and not user.is anonymous %} 
<a>Hello, {1{ user.get full name }}!1</a> 
<br> 
<a href="/logout">Logout</a> 
{$$ else %$} 


<a href="{% url 'social:begin' backend='linkedin-oauth2' %}">Login with 


Linkedin</a> 
{% endif %} 


B® 会 话 状态 


HTTP 是 无 状态 协议 ， 因 此 典型 的 Web 应 用 程序 通常 是 无 状态 的 。 但 是 在 现实 场景 中 ， 


应 用 程序 又 是 需要 状态 的 ， 这 就 像 两 个 人 在 聊天 ， 如 果 不 了 解 上 下 文 〈“ 状 态 ”) ， 就 可 
能 无 法 获取 对 方 话语 的 真实 含义 。 在 一 个 典型 的 Web 应 用 中 ， 客 户 端 和 服务 端 至 少 有 一 方 


网 页 Cookie 是 用 户 浏览 器 保存 在 本 地 的 数据 ， 这 些 数据 来 自 服务 器 。Cookie 旨 在 为 网 
站 保存 一 些 有 状态 的 信息 。 通 常情 况 下 ， 它 用 于 判断 两 个 请 求 是 否 来 自 同一 个 浏览 器 。 
当 收 到 HTTP 请 求 后 ， 服 务 器 可 以 发 送 带 响应 的 Set-Cookie 标 头 。 标 头 包含 的 数据 会 
保存 在 浏览 器 上 ， 浏 览 器 下 次 请 求 的 时 候 ， 将 这 部 分 数据 通过 Cookie 标 头发 送 给 服务 器 。 

Set-Cookie 标 头 的 内 容 是 一 个 键 值 对 ， 响 应 示例 如 下 : 


HTTP/1.1 200 OK 
Content-type: text/html 
Set-Cookie: who=tom 
Set-Cookie: age=21 
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浏览 器 接 到 这 个 响应 后 ， 会 将 “who=tom” 和 “age=21” 存 入 本 地 ， 下 次 请 求 的 时 候 
会 带 上 这 个 数据 。 请 求 示 例如 下 : 
GET /sample page.html HTTP/1.1 


Host: www.example.org 
Cookie: who=tom; age=21 


上 面 的 响应 是 一 个 会 话 Cookie， 在 用 户 关 闭 网 页 的 时 候 ， 就 会 被 自动 删除 。 可 以 通过 
Expires 和 Max-Age 设置 Cookie 的 生命 周期 ， 例 如 : 


HTTP/1.1 200 OK 

Set-Cookie: session id=a3fWa; Expires=Wed, 21 Oct 2019 07:28:00 GMT; 

开启 了 会 话 功 能 后 ，Django 默认 将 会 话 信息 存储 在 数据 库 中 ， 并 在 成 功 验证 用 户 身份 
后 将 会 话 ID 保存 在 浏览 器 的 Cookie 中 。 用 户 通过 浏览 器 下 次 请 求 时 会 带 上 Cookie， 服 务 
器 通过 对 Cookie 的 数据 进行 校 验 ， 判 断 请 求 的 来 源 。 

Django 会 话 的 实现 封装 在 一 个 中 间 件 中 ， 要 开启 这 个 功能 ， 要 在 settings.py 文件 中 加 
入 django.contrib.sessions.middleware.SessionMiddleware。 使 用 django-admin startproject 命令 
创建 的 项 目 中 已 经 在 MIDDLEWARE_ CLASSES 配置 中 加 入 该 中 间 件 了 。 

Django 的 会 话 中 间 件 默认 将 会 话 保存 在 数据 库 中 ， 模 型 摘录 如 下 : 


class AbstractBaseSession (models.Model): 

session key = models.CharField( ('session key'), max length=40, primary_ 
key=True) 

session data = models.TextField(_('session data')) 

expire date = models.DateTimeField(_('expire date'), db index=True) 


在 上 面 的 模型 中 ，session_key 是 会 话 的 标识 ，session_data 是 会 话 数据 ， 主 要 包含 用 户 
的 ID 信息 。expire_date 记录 该 会 话 的 过 期 时 间 ， 默 认 情况 下 ，Django 会 将 单 次 会 话 的 有 效 
时 间 设 置 为 一 个 月 。 如 果 要 修改 这 个 时 间 ， 则 可 以 在 视图 或 中 间 件 中 调用 request.session 的 
set_expiry 方法 ， 将 时 间作 为 参数 传 入 ， 以 修改 会 话 的 过 期 时 间 。 

在 上 面 的 场景 中 ， 用 户 访问 需要 验证 身份 的 网 页 时 ， 请 求 中 会 带 上 session key， 应 用 
程序 获取 session key 后 便 去 读 取 对 应 的 会 话 数 据 ， 以 验证 当前 会 话 是 否 合法 。 如 果 使 用 数 
据 库 作为 会 话 的 存储 后 端 ， 在 用 户 数量 比较 大 的 情况 下 ， 这 会 对 数据 库 产 生 很 大 的 压力 ， 
有 时 候 甚 至 会 带 来 性 能 问题 。 

为 了 获得 更 好 的 性 能 ， 应 用 程序 可 以 使 用 缓存 来 存储 会 话 数据 ， 同 时 缓存 系统 一 般 实 
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现 了 数据 的 过 期 策略 ， 这 也 为 实现 会 话 的 过 期 策略 提供 了 一 定 的 便利 。 

在 Django 中， 要 使 用 缓存 作为 会 话 存储 系统 ， 首 先 需 要 配置 缓存 〈 在 之 前 的 章节 中 ， 
我 们 已 经 学 习 了 如 何 配置 Django 的 缓存 系统 了 ， 这 里 不 再 袭 述 ) 。 如 果 系统 中 配置 了 多 个 
缓存 ， 则 Django 将 使 用 默认 的 缓存 作为 会 话 存储 后 端 ， 如 果 要 用 其 他 的 缓存 配置 ， 则 可 以 
通过 SESSION CACHE ALIAS 来 设置 。 

配置 好 缓存 后 ， 可 以 采取 两 种 方式 来 存储 数据 。 

一 种 是 只 对 缓存 进行 读 写 操作 。 这 种 方式 的 优点 是 实现 起 来 简单 ， 缺 点 是 会 话 持久 
化 支持 不 完善 ， 例 如 ， 在 缓存 重启 的 情况 下 ， 数 据 很 有 可 能 会 丢失 。 在 Django 中 设置 
SESSION ENGINE 为 django.contrib.sessions.backends.cache， 就 可 以 使 用 这 种 策略 。 

另 一 种 是 同时 将 会 话 写 入 数据 库 和 缓存 ， 优 先 从 缓存 读 取 数据 。 这 里 用 到 直 写 (write- 
through) 策略 : 每 次 写 入 缓存 的 同时 也 将 写 入 数据 库 ， 如 果 数 据 不 存在 于 缓存 中 ， 则 读 取 
数据 库 。 在 Django 中 设置 SESSION_ ENGINE 为 django.contrib.sessions.backends.cached 
db， 就 可 以 使 用 这 种 策略 。 


人 四 控制 策略 

在 涉及 私密 或 敏感 的 信息 时 ， 只 有 得 到 授权 的 人 才 有 权力 访问 受 保护 的 资源 。 在 计算 
机 系统 中 ， 客 户 端 对 服务 器 受 保护 资源 的 访问 也 必须 得 到 授权 。 这 就 要 求 建立 一 套 机 制 来 
控制 对 受 保护 信息 的 访问 。 

在 前 面 的 章节 中 ， 我 们 了 解 了 如 何 验证 用 户 的 请 求 ， 在 成 功 识别 并 验证 了 用 户 后 ， 必 
须要 确定 允许 他 们 访问 哪些 信息 资源 及 允许 他 们 执行 哪些 操作 《和 运行、 查看、 创建 、 删 除 
或 者 变更 ) ， 这 个 过 程 称 为 授权 。 

授权 由 管理 策略 和 流程 决定 。 管 理 策略 规定 了 哪些 用 户 能 够 在 什么 条 件 下 访问 哪些 
信息 和 计算 服务 。 系 统管 理 员 配置 控制 机 制 实施 这 些 策略 。 一 般 来 说 ， 不 同 的 系统 对 应 的 
访问 控制 策略 是 不 同 的。 比较 常用 的 控制 策略 有 控制 访问 列表 、 基 于 身份 的 访问 控制 等 。 
Django 也 自 带 了 一 个 权限 系统 ， 可 以 在 项 目 中 使 用 。 


10.3.1 访问 控制 列表 


大 多 数 文件 系统 都 有 为 特定 用 户 和 用 户 组 分 配 权限 或 访问 权限 的 方法 ， 这 些 权限 控制 


用 户 查看 、 更 改 和 执行 文件 系统 内 容 的 权利 。 

在 类 UNIX 系统 中 ， 权 限 被 限定 在 3 个 不 同 的 类 别 中 进行 管理 ， 这 3 个 类 别 是 用 户 、 
分 组 和 其 他 ; 每 个 类 别 有 3 个 特定 权限 : 读 (r) 、 写 (w) 和 执行 (x) 。 使 用 ls 命令 可 以 
查看 文件 的 用 户 、 组 和 相应 的 权限 : 

# 命令 行 

$ 1s -al file 

-IWXr-xXr-x 1 user staff 0 5 27 14:44 file 
上 面 的 例子 可 以 看 出 ，file 是 一 个 常规 文件 ， 用 户 user 对 其 具有 读 、 写 和 执行 权限 ; 
分 组 sta 企 对 其 具有 读 和 执行 的 权限 ; 其 他 用 户 〈 非 user 且 不 在 sta 企 组 内 的 用 户 ) 对 其 具有 
读 和 执行 的 权限 。 

类 似 地 ， 在 一 个 Web 系统 中 ， 可 以 为 每 个 请 求 的 路 径 不 同 的 操作 设置 不 同 的 访问 权限 ， 
例如 ， 限 制 不 再 活跃 的 用 户 不 能 使 用 商品 视图 的 POST 方法 。 示 例 代码 如 下 : 


from django .http import HttpResponse 
def product view(request): 


# 如 果 用 户 不 活路 并且 请 求 的 资源 在 受 限 制 列表 中 , 则 返回 403 
if not request.user.is active and request.method == 'POST': 
return HttpResponse ('UnAuthorized', status_ code=403) 


当然 , 在 视图 中 硬 编码 控制 权限 是 痛苦 而 低 效 的 , 我 们 可 以 将 类 似 的 控制 代码 聚合 起 来 ， 
放 在 一 个 中 间 件 中 ， 如 下 面 的 示例 : 


from django.http import HttpResponse 
class ACLMiddleware (object): 
# 整理 需要 控制 访问 的 资源 列表 
ACI = 
'POST': {'/some/path/uri 1', '/some/path/uri 2°'}, 
GBRY" 和 SO 六 机 SU Mri ys 


def process request (self, request): 
二 如 果 用 户 不 活跃 并 且 请 求 的 资源 在 受 限制 列表 中 , 则 返回 403 
if not request.user.is active and ACL.get (request .method) and request. 
path in ACL.get (request .method): 
return HttpResponse('UnAuthorized', status_code=403) 
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10.3.2 ”Dijango 权 限 系 统 


Django 提供 了 一 个 简单 的 权限 系统 。 这 个 系统 提供 了 一 种 为 特定 用 户 和 用 户 组 分 配 权 
限 的 方法 。Diango 的 管理 站 点 使 用 了 这 个 权限 系统 。 

这 个 权限 系统 主要 用 于 控制 模型 的 增 、 删 、 改 、 查 操作 。 假 设 现在 有 一 个 名 字 为 foo 
的 应 用 ， 具 体 来 说 ， 可 以 用 它 来 控制 : 

@ 添加 某 种 模型 的 对 象 。 

@ 修改 单个 对 象 。 

@ 删除 某 个 对 象 。 

Django 的 User 模型 有 两 个 多 对 多 的 字段 groups 和 user permissions。 单 个 用 户 可 以 
很 容易 地 操作 其 对 应 的 分 组 和 权限 ， 示 例 代码 如 下 : 


# some_user 为 某 个 用 户 对 象 

# 设置 用 户 的 分 组 

some user.groups = [group list] 

# 添加 分 组 

myuser.groups.add(group, group, ...) 

# 移 除 分 组 

myuser.groups.remove (group, group, ...) 

# 清空 分 组 

myuser.groups.clear () 

# 设置 权限 列表 

myuser.user permissions = [permission list] 
# 添加 权限 

myuser.user permissions.add (permission, permission, ...) 


# 移 除权 限 


myuser.user permissions.remove (permission, permission, ...) 


# 清空 权限 


myuser.user permissions.clear() 


可 以 为 某 个 给 定 的 模型 自 定义 权限 ， 这 里 要 用 到 permission 的 Meta 属性 。 例 如 ， 下 面 
的 示例 代码 创建 了 3 个 自 定义 属性 ， 配 置 用 户 是 否 能 查看 任务 、 是 否 能 查看 任务 状态 和 是 
否 能 关闭 任务 。 
class Task (models.Model): 
ls Meta: 


permissions = ( 


# 查看 任务 权限 
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("view task", "Can see available tasks")， 
# 查看 任务 状态 权限 
("change task status", "Can change the status of tasks"), 


# 关闭 任务 权限 
("close task", "Can remove a task by setting its status as closed"), 
) 
在 执行 manage.py migrate 时 会 创建 这 些 权限 ， 业 务 代 码 需 要 判断 用 户 是 否 有 权限 执行 
相关 的 权限 。 例 如 : 


user.has_perm('app.view task'") 


除了 定义 Meta 属性 外 ， 也 可 以 使 用 Permission 对 象 的 方法 直接 创建 权限 ， 代 码 如 下 : 


from myapp.models import Task 

from django.contrib.auth.models import Permission 

from django.contrib.contenttypes.models import ContentType 

# 获得 内 容 类 型 

content type = ContentType.objects.get for model (Task) 

# 创建 权限 

permission = Permission.objects.create(codename='view task', name='Can 
View Tasks', content type=content type) 


10.3.3 ”基于 身份 的 访问 控制 


在 计算 机 系统 中 ， 基 于 身份 的 访问 控制 (Role-Based Access Control，RBAC) 系统 是 
非常 常见 的 。 它 是 一 种 围绕 角色 和 权限 设置 策略 的 访问 控制 机 制 。RBAC 使 用 组 件 组 合 的 
方式 来 分 配 用 户 权限 ， 这 种 方式 非常 灵活 ， 能 够 轻松 完成 复杂 的 授权 。 

Django 自 带 的 权限 系统 也 是 一 种 RBAC 的 实现 ， 不 过 这 种 授权 方式 面向 模型 和 对 象 ， 
主要 用 于 Django 的 管理 站 点 ， 和 框架 的 耦合 比较 深 ， 不 能 很 好 地 满足 业务 需要 。 因 此 ， 很 
多 使 用 Django 框架 的 站 点 会 根据 业务 需要 设计 实现 自己 的 访问 控制 系统 。 

现在 来 为 我 们 之 前 实现 的 电 商 站 点 实现 自己 的 RBAC 系统 。 系 统 描 述 如 下 : 

(1) 将 业务 涉及 的 内 容 抽象 为 资源 ， 如 商品 、 订 单 、 库 存 等 。 

(2) 对 这 些 资源 的 常见 操作 有 获取 单个 资源 详情 、 列 出 所 有 或 符合 条 件 的 部 分 资源 、 
更 新 单个 资源 的 信息 、 创 建 资源 新 的 对 象 和 删除 资源 ， 这 就 是 常 说 的 “增删 查 改 ”。 

(3) 将 资源 和 操作 结合 起 来 称 为 规则 ， 规 则 可 能 是 “人 允许 列举 商品 ”“ 人 允许 增加 一 条 
商品 记录 ”“ 人 允许 更 新 商品 ”等 。 
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(4) 一 个 角色 可 以 对 应 多 个 规则 ， 如 “管理 员 ” 和 角色 可 以 “人 允许 列举 商品 ”“ 人 允许 增 
加 一 条 商品 记录 ”。 

(5) 可 以 为 单个 用 户 或 分 组 多 个 角色 ， 如 用 户 小 明 可 以 同时 担任 “订单 管理 员 ” 和 “ 商 
品 管理 员 角 色 ”。 

RBAC 模型 如 图 10.5 所 示 。 


规则 


10.5 ”RBAC 模型 


模型 定义 如 下 : 


from django.contrib.auth.models import User 

from django.db import models 

# 资源 

class Resource (models.Model): 
name = models.CharField (max length=255) 

# 操作 

class Operation (models .Model): 
name = models.CharField (max length=255) 

# 规则 

class Rule (models.Model): 
name = models.CharField (max length=255) 
resource id = models.IntegerField (max length=20) 
resource = models.CharField (max length=255) 
opertion id = models.IntegerField(max length=20) 
operation = models.CharField (max length=255) 

# 角色 

class Role (models.Model): 
name = models.CharField (max length=255) 
rules = models.ManyToManyField (Rule) 

# 用 户 角色 


class UserRole (models.Model): 
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user = models. ForeignKey (User) 
role = models.ForeignKey (Role) 


在 视图 中 处 理 时 ， 从 请 求 中 获取 资源 、 操 作 和 用 户 ; 结合 资源 和 操作 得 到 规则 ， 找 到 
所 有 符合 该 规则 的 角色 集合 A; 找到 该 用 户 的 角色 集合 B。 如 果 A 和 B 有 交集 ， 即 说 明 用 
户 拥有 这 次 操作 的 权限 。 可 以 将 这 样 的 功能 实现 为 一 个 装饰 器 ， 方 便 为 视图 添加 功能 。 伪 
代码 如 下 : 


from django .http import HttpResponse 
def rbac authorize (func): 
@wraps (func) 
def decorator(request, *args, **kwargs): 
# 获取 资源 、 操 作 和 用 户 
resource, operation, user = get basic info(request) 
# 获取 规则 
rule = get rule by resouce operation (resource，operation) 
# 获取 拥有 规则 的 角色 
role list a = get role list by rule (rule) 
# 获取 用 户 的 角色 
role list b = get role by user (user) 
# 如 果 角 色 集 合 有 交集 , 则 验证 通过 , 否则 拒绝 请 求 
if have in common(role list a, role list b): 
return funcl(request, *args, **kwargs) 
Shses 
return HttpResponse('Unauthorized', status code=403) 
return decorator 


ww 总 结 


访问 控制 通常 分 为 3 个 步骤 : 识别 用 户 、 身 份 验 证 和 授权 。 本 章 首先 介绍 了 认证 用 户 
的 常见 方式 。 其 中 最 常见 的 有 HTTP 基本 访问 认证 ， 即 常用 的 用 户 名 / 密码 认证 。 随 着 互 
联网 的 发 展 ， 网 站 面临 越 来 越 多 的 安全 风险 ， 一 些 更 加 安全 的 认证 方式 被 提出 来 ， 本 章 介 
绍 了 访问 令 牌 和 签名 认证 这 两 种 较 安全 的 方式 及 如 何在 Django 中 实现 它们 。 

随 着 智能 移动 设备 的 普及 ， 出 现 了 OAuth 验证 ， 本 章 介 绍 了 OAuth?2 的 验证 流程 ， 并 
以 领 英 网 站 为 例 展 示 了 如 何 使 用 Django 框架 实现 第 三 方 登录 。 

在 成 功 识别 并 验证 了 用 户 后 ， 系 统 必须 确定 允许 他 们 访问 哪些 信息 资源 及 允许 他 们 执 
行 哪些 操作 。 本 章 还 介绍 了 访问 控制 列表 (ACL) 和 Django 自 带 的 权限 系统 。 这 两 个 访问 
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控制 方式 可 以 在 一 些 简单 的 场合 使 用 。 本 章 最 后 介绍 了 基于 身份 的 访问 控制 (RBAC) 及 使 
用 Django 的 简单 实现 〈 伪 代码 ) ，RBAC 能 够 适用 于 比较 复杂 的 场合 。 


os 


问题 一 : 访问 控制 通常 有 哪儿 个 步 又? 
问题 二 : Django 的 权限 框架 默认 有 了 哪儿 个 权限 ? 
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测试 是 保证 软件 质量 的 有 效 方法 ， 可 以 提供 客观 的 视图 ， 让 业务 能 够 理解 实现 软件 的 风险 。 测 
试 主要 查找 软件 错误 或 缺陷 ， 并 验证 软件 产品 是 否 适 合 使 用 。 通 常 来 说 ， 测 试 需要 验证 软件 是 否 能 
够 满足 用 户 需求 、 能 否 对 各 种 输入 作出 正确 响应 、 是 否 能 在 可 接受 的 时 间 内 完成 功能 等 。 

在 IT 企业 或 组 织 中 ， 往 往 会 有 专门 的 部 门 来 负责 实施 软件 测试 ， 以 保证 软件 的 质量 。 应 用 
开发 者 被 要 求 在 完成 功能 时 ， 还 需 提 供 相关 功能 的 单元 测试 。 编 写 单元 测试 用 例 是 一 项 枯燥 的 工 
作 。Django 提供 了 一 些 工具 ， 使 得 开发 者 能 够 方便 、 快 速 地 编写 自动 化 的 测试 用 例 ， 保 证 软件 
的 质量 。 

本 章 主要 涉及 的 知识 点 : 

@ 单元 测试 : 了 解 什么 是 单元 测试 。 

@ ”Django 中 执行 单元 测试 : 学 习 如 何 使 用 unittest 框架 和 Django 提供 的 工具 执行 单元 测试 。 


单元 测试 是 一 种 软件 测试 方法 ， 通 过 该 方法 可 以 测试 各 个 源 代码 单元 、 一 个 或 多 个 程 
序 模块 的 集合 、 相 关 的 控制 数据 及 使 用 程序 、 操 作 程序 的 步骤 ， 以 确定 软件 是 否 适 合 使 用 。 

一 般 来 说 ， 将 应 用 程序 的 最 小 可 测试 部 分 视 为 单元 。 在 过 程式 编程 语言 中 ， 单 元 可 以 
是 整个 模块 ， 也 可 以 是 常见 的 单个 功能 或 过 程 。 在 面向 对 象 编程 语言 中 ， 单 元 通常 是 整个 
接口 (如 类 ) ， 还 可 以 是 单独 的 方法 。 

单元 测试 是 组 件 测试 的 基础 。 在 理想 情况 下 ， 每 个 测试 用 例 都 独立 于 其 他 测试 用 例 。 
单个 单元 测试 通常 有 一 个 或 几 个 输入 ， 但 只 有 一 个 输出 。 单 元 测试 用 例 通常 由 软件 开发 人 
员 编 写 和 运行 ， 以 确保 代码 符合 其 设计 并 按 预 期 运行 。 

单元 测试 的 目标 是 隔离 一 个 单元 并 验证 其 正确 性 ， 通 常 是 自动 化 执行 的 。 要 在 自动 执 
行 单元 测试 时 充分 实现 隔离 效果 ， 需 要 单元 测试 在 产品 使 用 的 上 下 文 之 外 执行 。 这 种 孤立 
的 方式 揭示 了 被 测 代码 与 产品 其 他 单元 之 间 不 必要 的 依赖 关系 。 

大 多 数 流行 的 编程 语言 带 有 自己 的 单元 测试 框架 。 开 发 人 员 可 以 使 用 自动 化 框架 ， 将 
测试 标准 编 入 测试 ， 以 验证 功能 的 正确 性 。 在 测试 用 例 执行 期 间 ， 框 架 会 记录 所 有 没有 通 
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过 标准 的 测试 ， 并 将 测试 摘要 报告 给 执行 者 。 

由 于 开发 者 会 被 要 求 编写 测试 用 例 ， 因 此 其 有 动力 将 代码 设计 为 多 个 解 耦 的 模块 。 在 
实际 编码 前 ， 合 理 设 计 多 个 解 看 的 模块 是 良好 的 编程 习惯 。 要 提出 最 佳 解决 方案 ， 通 常 需 
要 将 软件 设计 模式 、 单 元 测试 和 代码 重 构 结合 起 来 。 

在 软件 工程 中 ， 单 元 测试 能 带 来 非常 多 的 好 处 。 

@ 编写 单元 测试 用 例 增 加 了 开发 者 更 改 、 维 护 代码 的 信心 。 通 过 编写 良好 的 单元 测试 
用 例 ， 并 且 在 每 次 更 改 代码 的 时 候 运行 它 ， 我 们 能 够 及 时 发 现 由 于 更 改造 成 的 任何 
缺陷 。 此 外 ， 如 果 代 码 已 经 互相 解 辜 ， 则 任意 部 分 的 修改 带 来 意外 影响 的 可 能 性 就 
会 变 小 。 

@ 代码 复 用 率 更 高 。 只 有 代码 都 是 模块 化 的 ， 才 可 能 编写 单元 测试 用 例 ， 这 意味 着 代 
码 更 易于 复 用 。 

@ 提升 开发 的 速度 。 没 有 单元 测试 ， 则 开发 者 需要 通过 打 断 点 和 手动 输入 数据 来 进行 
测试 。 有 单元 测试 ， 则 开发 者 只 需要 写 完 代码 后 运行 一 下 单元 测试 用 例 即 可 。 当 然 ， 
编写 测试 用 例 也 是 需要 花费 时 间 的 , 不 过 运行 测试 用 例 比 手 动 测试 花费 的 时 间 更 短 ， 
并 且 测 试 结果 更 加 可 靠 。 

@ 提升 软件 的 交付 速度 。 与 修复 系统 测试 或 验收 测试 发 现 缺陷 所 需要 的 工作 相 比 ， 在 
单元 测试 期 间 找到 并 修复 缺陷 所 需要 的 工作 量 要 少 得 多 。 

@ 调试 更 加 容易 。 当 发 现 一 个 单元 测试 无 法 通过 时 ， 一 般 只 需要 看 代码 最 新 的 修改 记 
录 就 可 以 了 。 

当然 ， 单 元 测试 不 是 万 能 的 ， 它 不 可 能 找到 程序 的 所 有 错误 ， 尤 其 是 它 的 测试 范围 仅 

限于 定义 好 的 单元 。 

在 业务 需求 迭代 快 的 场景 下 ， 过 多 的 单元 测试 也 是 不 好 的 。 编 写 单元 测试 用 例 本 身 也 

会 提升 开发 软件 的 成 本 ， 如 果 为 每 一 个 方法 或 类 都 编写 单元 测试 用 例 , 业务 一 旦 发 生 改 变 ， 
相应 的 单元 测试 代码 也 需要 改变 ， 改 变 过 多 ， 过 于 频繁 ， 不 仅 会 使 开发 人 员 产生 抵触 情绪 ， 
而 且 会 增加 维护 测试 代码 的 负担 。 


1.2) Django 单元 测试 


测试 Web 应 用 程序 是 一 项 复杂 的 任务 ， 因 为 Web 应 用 程序 由 多 层 逻 辑 组 成 ， 从 接受 


HTTP 请 求 ， 到 表单 验证 和 处 理 ， 再 到 模板 泻 染 。Django 提供 了 一 些 工具 来 帮助 开发 者 编 
写 测试 用 例 。 使 用 这 些 工 具 ， 开 发 者 可 以 模拟 请 求 、 插 入 测试 数据 和 检查 应 用 程序 的 输出 。 


11.2.1 编写 测试 用 例 


根据 需求 需要 判断 某 个 商品 是 否 是 最 近 创 建 的， 为 此 我 们 为 Product 类 新 增 一 个 方法 
was_created_recently。 代 码 如 下 : 


from django.db import models 

from django.utils import timezone 
import datetime 

class Product (models.Model): 


i 
# 判断 是 否 在 一 天 之 内 创建 
def was created recently(self) : 
return self.date created >= timezone.now() - datetime. 
timedelta (days=1) 


上 面 的 逻辑 存在 一 个 明显 的 Bug， 如 果 date_created 的 值 是 未 来 的 某 个 时 间 点 ， 则 这 
个 方法 还 是 会 返回 True。 在 定位 到 问题 后 ， 可 以 编写 一 个 测试 用 例 以 避免 下 次 发 生 类 似 的 
Bug。 我 们 在 product 应 用 下 创建 一 个 test.py 文件 ， 文 件 内 容 如 下 : 


# coding=utf-8 
# product/tests.py 文 件 
from django.db import models 
import datetime 
from django.utils import timezone 
from django.test import TestCase 
from product .models import Product 
class ProductMethodTests (TestCase): 
# 测试 用 例 
def test was created recently with future product (self): 
# 对 于 创建 时 间 在 未 来 的 商品 , was_created recent1y 方 法 应 该 返回 False 
time = timezone.now() + datetime.timedelta (days=30) 
future product = Product (date created=time) 
self.assertEqual (future product.was created recently(), False) 


当 执 行 测试 用 例 时 ，Django 的 测试 工具 会 找到 所 有 的 测试 用 例 (unittest 的 TestCase 的 
子 类 ) ， 执 行 以 test 开头 的 方法 ， 然 后 自动 执行 。 
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11.2.2 ”运行 测试 用 例 


在 命令 行 中 ， 输 入 下 面 的 命令 可 以 运行 测试 用 例 : 


$ python manage.py test product 
Creating test database for alias 'default'... 
1 


Traceback (most recent call last): 
File "... /product/tests.py", line 14, in test was created recently with 
future question 
self.assertEqual (future product.was created recently(), False) 
AssertionError: True != False 


Ran 1 test in 0.000s 


FAILED (failures=1) 
Destroying test database for alias "default'..- 


说 明 : 

(1) python manage.py test product 命令 在 product 应 用 下 寻找 测试 用 例 ， 找 到 了 一 个 
django.test.TestCase 的 子 类 ProductMethodTests。 

(2) 出 于 测试 的 目的 创建 一 个 特别 的 数据 库 。 

(3) 寻找 以 test 开头 的 测试 方法 。 

(4) 在 test_was_created_recently_with future_product 中 ， 创 建 了 一 个 Product 对 象 ， 
设置 date_created 值 为 30 天 后 。 

(5) 使 用 assertEqual 方法 发 现 新 建 对 象 调用 was_created_recently 方法 返回 了 True， 
不 过 期 望 值 是 False， 因 此 返回 执行 失败 。 

当 测 试用 例 需 要 数据 库 的 时 候 ，Django 不 会 使 用 生产 环境 的 数据 库 ， 而 是 为 测试 创建 
单独 的 空白 数据 库 。 无论 测试 通过 还 是 失败 , 测试 数据 库 都 会 在 执行 完 所 有 测试 后 被 销毁 。 
默认 情况 下 , 测试 数据 库 的 命名 规则 为 : DATABASES 中 的 数据 库 NAME 加 上 “test ”前缀 。 

为 了 保证 数据 库 环 境 在 所 有 继承 了 TestCase 的 子 类 启动 的 时 候 都 是 干净 的 ，Django 在 
执行 测试 的 时 候 会 按照 下 面 的 顺序 执行 。 
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(1) TestCase 的 子 类 会 优先 执行 。 
(2) 其 他 所 有 基于 Django 的 测试 (基于 SimpleTestCase 的 测试 用 例 ) 运行 时 不 保证 
按 特 定 的 顺序 执行 。 
(3) 执行 继承 了 unittest.TestCase 的 测试 子 类 。 
无 论 配 置 文件 中 DEBUG 设置 的 值 如 何 ， 为 了 保证 代码 输出 与 生产 环境 中 的 相 匹 配 ， 
所 有 的 Django 测试 在 执行 时 都 会 将 DEBUG 设置 为 False。 
在 执行 测试 时 Django 会 输出 一 些 信 息 , 这 些 信息 有 助 于 测试 者 了 解 测试 的 过 程 和 结果 。 


Creating test database for alias "default'..- 
这 一 行 输出 表明 Django 正在 创建 一 个 测试 数据 库 ， 这 个 测试 数据 库 名 称 为 “default”。 


在 数据 库 创建 后 Django 会 运行 测试 用 例 ， 如 果 所 有 的 测试 用 例 都 通过 ， 则 可 以 看 到 类 似 下 
面 的 输出 。 


Ran 22 tests in 0.221s 


OK 


如 果 测 试用 例 执行 失败 ， 则 Django 会 输出 哪些 测试 用 例 执行 失败 了 ， 并 且 告知 失败 的 
原因 、 失 败 用 例 的 总 数 等 ， 如 下 面 的 示例 。 


FAIL: test was created recently with future question (product.tests. 
ProductMethodTests) 
Traceback (most recent call last): 

File "product/tests.py", line 14, in test was created recently with future 


question 
self.assertEqual (future product.was created recently(), False) 
AssertionError: True != False 


Ran 1 test in 0.000s 


FAILED (failures=1) 
Destroying test database for alias 'default'... 
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PE 有 Django 测试 工具 


kK 


Django 提供 了 很 多 工具 来 编写 测试 用 例 。 这 些 工 具有 些 可 以 用 来 模拟 客户 端的 行为 ， 


有 些 可 以 用 来 快速 建立 测试 的 数据 和 环境 。 利 用 好 这 些 工具 ， 可 以 编写 出 可 维护 性 好 的 测 
试 代码 。 


11.3.1 测试 客户 端 


Django 提供 了 一 个 测试 客户 端 ， 这 个 Python 类 可 以 充当 Web 浏览 器 的 功能 。 使 用 它 可 以 


测试 视图 ， 并 以 编程 的 方式 与 Django 应 用 程序 交互 。 使 用 客户 端 可 以 做 许多 事情 ， 例 如 : 


@ 模拟 GET 请 求 和 POST 请 求 并 观察 响应 。 响 应 不 仅 包含 HTTP 标 头 和 状态 码 信息 ， 
而 且 包 含 页 面 的 所 有 内 容 。 

@ 如 果 响 应 是 一 个 重 定向 响应 ， 则 客户 端 会 记录 并 检查 每 个 步骤 的 URL 和 状态 码 。 

@ 在 请 求 中 包含 模板 上 下 文 ， 检 查 是 否 返 回 ， 是 否 正确 泻 染 了 模板 。 

使 用 测试 客户 端 非常 简单 ， 如 下 面 的 代码 : 


>>> from django.test import Client 

# 创建 测试 客户 端 对 象 

>>> c = Client() 

# 对 登录 页 面 使 用 POST 方法 

>>> response = c.post('/login/', {'username': 'john', 'password': 'smith'}) 
# 查看 响应 的 状态 码 

>>> response.status code 

200 

>>> response = c.get('/customer/details/') 
# 查看 响应 的 内 容 

>>> response.content 

b'<!DOCTYPE html..."' 


关于 Client 类 的 使 用 方法 ， 需 要 注意 以 下 几 点 。 
(1) 在 使 用 测试 客户 端 时 不 需要 运行 Web 服务 器 。 这 是 因为 它 不 用 处 理 真 实 的 网 络 


请 求 ， 而 是 直接 处 理 Django 框架 返回 的 响应 ， 这 能 加 快 单元 测试 的 速度 。 


(2) 因为 测试 客户 端 无 法 检索 不 受 Django 项 目 支持 的 Web 页 面 ， 所 以 在 检索 页 面 时 ， 


不 能 带 上 域名 。 例 如 : 
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# 正确 的 写法 
>>> c.get('/1Login/') 
# 错误 的 写法 
>>> c.get('http://www.example.com/login/') 
(3) 在 解析 URL 时 ， 测 试 客户 端 使 用 ROOT_URLCONF 配置 。 
(4) 默认 情况 下 ,测试 客户 端 将 禁用 执行 CSRF 检查 。 如 果 想 要 强制 执行 CSRF 检查 ， 


则 可 以 在 创建 客户 端 对 象 时 传 入 enforce_csrf_checks 参数 。 代 码 如 下 : 


>>> from django.test import Client 
>>> csrf client = Client (enforce csrf checks=True) 


在 创建 客户 端 对 象 时 ， 可 以 传 入 一 些 关 键 字 来 指定 一 些 默认 标 头 。 例 如 ， 下 面 的 例子 
将 在 每 个 请 求 中 发 送 User-Agent 头 。 


>>> c = Client (HTTP USER AGENT="'Mozilla/5.0') 


在 调用 get 方法 时 ， 可 以 传 入 一 个 字典 ， 作 为 请 求 的 参数 ， 也 可 以 传 入 完整 的 请 求 
URL， 例 如 : 

>>> c.get ('/customers/details/', {'name': 'fred', 'age': 7}) 

# 等 同 于 

>>> c.get ('/customers/details/?name=fred&age=7') 

传 入 参数 follow=True， 客 户 端 将 会 执行 重 定向 ， 并 且 将 重 定向 的 链 路 保存 下 来 。 假 设 
/redirect_me/ 会 重 定向 到 /next/，/next/ 重 定向 到 /fianl/， 调 用 的 示例 代码 如 下 : 


>>> response = c.get('/redirect me/', follow=True) 
>>> response.redirect chain 
[('http://testserver/next/', 302), ('http://testserver/final/', 302)] 


调用 post 方法 和 调用 get 方法 差不多 ， 会 对 指定 的 路 径 上 发 送 POST 请 求 并 返回 一 个 
Response 对 象 ， 例 如 : 


>>> ¢ = Client() 
>>> c.post('/login/', {'name': 'fred', 'passwd': 'secret'}) 


可 以 在 上 传 数 据 时 指定 content type， 如 textxml， 这 样 在 发 起 POST 请 求 时 会 带 上 Content- 
Type 标 头 。 如 果 不 指定 content type， 则 Content-Type 的 默认 值 为 multiparyfonm-data。 
上 传 文件 的 操作 有 些 特殊 ， 要 想 上 传 文件 ， 只 需要 提供 文件 名 和 文件 句柄 即 可 ， 如 下 
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面 的 代码 : 


>>> c = Client() 
>>> with open('wishlist.doc') as fp: 
c.post('/customers/wishes/', {'name': "fred'，'attachment': fp}) 


如 果 调 用 的 视图 函数 抛 出 了 异常 ， 则 测试 用 例 将 会 显示 该 异常 。 可 以 通过 try...catch 机 
制 来 捕获 异常 ， 也 可 以 通过 assertRaises( ) 来 测试 异常 。 

有 一 些 异 常 是 测试 客户 端 看 不 到 的 ， 这 些 异 常 有 Http404、PermissionDenied、 
SystemExit 和 SupspicousOperation。Django 会 捕获 这 些 异常 ， 然 后 将 其 转换 成 对 应 的 HTTP 
响应 状态 码 。 在 这 种 情况 下 ， 应 该 在 测试 用 例 中 检查 response.status_code。 

测试 客户 端 是 有 状态 的 ， 如 果 响 应 中 返回 了 Cookie， 那 么 该 Cookie 将 存储 在 测试 客户 
端 中 ， 并 在 POST 请 求 和 GET 请 求 中 带 上 这 个 Cookie。 存 储 在 客户 端的 Cookie 不 会 遵循 
过 期 策略 ， 如 果 希 望 Cookie 过 期 ， 则 应 该 手动 删除 这 个 Cookie 或 者 新 建 一 个 客户 端 对 象 。 


11.3.2 ”测试 类 


普通 的 Python 单元 测试 类 一 般 继 承 unittest TestCase 类 。Dijango 基于 unittest TestCase 类 
提供 了 更 多 的 选择 ， 有 SimpleTestCase、TransactionTestCase、TestCase、LiveServerTestCase， 
测试 类 的 继承 关系 如 图 11.1 所 示 。 


TestCase unittest 标 准 库 
SimpleTestCase django.test 包 
-一 一 一 一 
TransactionyestCasc 一 
\ 一 一 一 一 
TestCase (LiveserverTestCase | 


11.1 测试 类 的 继承 关系 


SimpleTestCase 扩展 了 unittest TestCase 类 ， 新 增 了 一 些 功能 : 
@ 增加 了 一 些 有 用 的 断言 ， 如 表单 是 否 成 功 泻 染 、 某 个 模板 是 否 用 到 泻 染 页 面 、 检 查 
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两 段 JSON 数据 是 否 相同 等 。 
@ 可 以 临时 修改 配置 ， 然 后 复原 配置 。 
@ 可 以 使 用 测试 客户 端 。 
SimpleTestCase 及 其 子 类 依赖 setUpClass 和 tearDownClass 来 执行 某 些 初始 化 工作 。 如 
果 要 修改 这 些 初始 化 行为 ， 则 应 该 在 做 完 初始 化 工作 后 ， 调 用 super 方法 。 示 例 代码 如 下 : 


class MyTestCase (TestCase): 
@classmethod 
def setUpClass (cls): 
# 开始 的 时 候 调 用 父 类 的 方法 


super (MyTestCase, cls) .setUpClass() 


@classmethod 
def tearDownClass (cls): 


# 结 束 的 时 候 调用 父 类 的 方法 
super (MyTestCase，c1s) .tearDownClass () 
TestCase 提供 了 一 些 可 用 于 测试 Web 站 点 的 工具 。 例 如 : 
@ 在 测试 开始 前 自动 加 载 测试 数据 。 
@ 创建 一 个 TestClient 对 象 。 
@ 专用 于 Django 的 断言 ， 如 重 定向 和 表单 错误 等 。 
TestCase 可 以 利用 数据 库 的 事务 功能 ， 在 每 次 测试 开始 的 时 候 加 速 将 数据 库 重 置 为 
某 个 已 知 的 状态 。 这 样 做 是 有 一 些 副 作用 的 ， 会 导致 使 用 Django 的 TestCase 时 无 法 测试 
某 些 数据 库 行 为 ， 如 select_for_update( ) 方法 中 使 用 的 事务 。 遇 到 这 样 的 情况 ， 应 该 使 用 
TransactionTestCase。 
LiveServerTestCase 和 TransactionTestCase 的 功能 差不多 ， 唯 一 不 同 的 地 方 在 于 ， 
LiveServerTestCase 会 在 初始 化 时 ， 后 台 运行 一 个 Django 服务 ， 在 测试 结束 时 停止 这 个 服务 。 
有 了 这 个 服务 , 就 可 以 使 用 其 他 自动 化 测试 工具 (如 Seleniumy) 在 浏览 器 上 模拟 真实 用 户 的 操作 。 


4 Mock 测试 


在 编写 单元 测试 用 例 的 时 候 ， 某 些 情况 下 ， 对 实际 函数 进行 调用 是 不 可 能 的 ， 所 以 需 
要 伪造 函数 运行 的 结果 。 
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例如 ， 代 码 向 外 部 服务 发 出 HITP 请 求 ， 只 有 当 外 部 服务 符合 预期 的 时 候 ， 测 试 才能 
以 可 预测 的 方式 被 执行 。 一 旦 这 些 外 部 行为 有 临时 的 更 改 , 可 能 会 导致 整个 测试 用 例 不 可 用 。 

出 于 这 样 的 考虑 ， 最 好 在 受 控 环境 中 测试 代码 。 这 时 可 以 使 用 模拟 对 象 替 换 实 际 请 求 ， 
这 样 就 允许 测试 在 可 以 预测 的 结果 中 正确 运行 。 

有 些 时 候 ， 测 试 代码 很 难 执行 到 某 些 代码 逻辑 ， 如 代码 中 的 except 逻辑 块 和 代码 中 难 
以 达到 条 件 的 让 逻 辑 块 ,使 用 Mock 对 象 可 能 有 助 于 控制 代码 的 执行 路 径 以 达到 这 些 逻 辑 。 


11.4.1 ” Mock 对象 


要 使 用 mock 库 ， 首 先 要 安装 它 ， 安 装 命令 如 下 : 


p install mock 
ecting mock 


Successfully installed funcsigs-1.0.2 mock-3.0.5 


mock 库 提供 了 Mock 类 ， 可 以 用 它 来 模仿 代码 库 中 的 真实 对 象 。 该 库 同 时 提供 了 patch 
方法 ， 该 方法 会 用 Mock 对 象 替换 代码 中 的 真实 对 象 。 

Mock 对 象 必须 模拟 它 将 要 替换 的 任何 对 象 ， 为 了 实现 这 种 灵活 性 ， 它 会 在 访问 属性 时 
创建 这 些 属性 ， 例 如 : 


# 命令 行 

>>> from mock import Mock 

>>> mock = Mock() 

# 创建 一 个 Mock 对 象 

>>> mock 

<Mock id="'4361390416'> 

# 访问 some_attribute 属 性 , Mock 对 象 会 在 访问 时 创建 这 个 属性 
>>> mock.some attribute 

<Mock name='mock.some attribute' id='4361391568'> 
# 访问 do_something 方 法 , Mock 对 象 会 在 调用 这 个 方法 时 创建 它 
>>> mock.do_something() 

<Mock name="'mock.do something()' id="'4362002704'> 


每 次 调用 Mock 对 象 ， 该 Mock 对 象 会 记录 这 一 次 调用 的 详情 ， 如 调用 的 是 哪个 方法 、 
传 入 的 是 哪些 参数 、 该 方法 是 第 几 次 被 调用 等 。 下 面 的 示例 代码 使 用 Mock 对 象 模拟 json 
库 的 行为 ， 我 们 来 看 看 如 何 使 用 这 些 调用 记录 。 
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# 命令 行 

>>> from mock import Mock 

# 模拟 json 库 的 行为 

>>> json = Mock() 

# 调用 一 次 load 方 法 

>>> json.loads('{"key": "value"}') 

<Mock name='mock.1loads () ' id="'4343021008'> 

# 已 经 调用 过 这 个 方法 , 可 以 用 来 判断 断言 

# 判断 是 否 被 调用 过 

> json.loads.assert called() 

# 判断 是 否 被 调用 了 一 次 

>>> json.loads.assert_called_once () 

# 判断 是 否 带 参数 被 调用 过 

>>> json.loads.assert_called with('{"key": "value"}') 

# 判断 是 否 带 参数 被 调用 过 一 次 

>>> json.loads.assert called once with('{"key": "value"}') 
# 再 次 调用 loads 方 法 

>>> json.loads('{"key": "value"}') 

<Mock name='mock.loads () ' id="'4343021008'> 

# 由 于 调用 了 两 次 该 方法 , 因此 断言 会 抛 出 异常 

>>> json.loads.assert called once() 

Traceback (most recent call last): 

AssertionError: Expected 'loads' to have been called once. Called 2 times. 
Callse icaa ey “valuoevy ye calbt ey "value rp Yds 


通过 上 面 的 例子 ， 也 可 以 直接 查看 json.loads 的 调用 历史 。 代 码 如 下 : 


# 命令 行 

>>> json.loads.call count 

>>> json.loads.call args 

calll('{"key": "value"}') 

>>> json.loads.call args list 

[call('{"key": "value"}'), calll('{"key": "value"}')] 

>>> json.method calls 

[call.loads('{"key": "value"}'), call.loads('{"key": "value"}')] 


11.4.2 ”模拟 返回 值 


使 用 mock 库 的 一 个 重要 理由 是 其 能 在 测试 期 间 控 制 代码 的 行为 。 控 制 代码 行为 的 典 
型 例子 就 是 指定 函数 的 返回 值 。 
创建 my_calendar.py 文件 , 编写 is_weekday( ) 方 法 , 用 于 判断 运行 的 时 间 是 否 是 工作 日 。 


ET 


代码 如 下 : 


# coding=utf-8 

# my_calendar .py 文件 

from datetime import datetime 

def is weekday(): 
today = datetime.today() 
# Python 的 datetime 库 设置 周一 为 0, 周 日 为 6 
return (0 <= today.weekday() < 5) 

# 测试 今天 是 否 是 工作 日 


assert is_weekday() 


测试 is_weekday 方法 的 结果 明显 和 运行 测试 的 时 间 有 关 ， 如 果 在 周一 测试 ， 则 测试 用 


例 将 返回 True; 如 果 在 周 日 测试 ， 则 测试 结果 将 返回 False。 


当 编 写 测试 用 例 时 ， 保 证 结果 的 可 预测 性 是 非常 重要 的 。 这 里 可 以 使 用 Mock 消除 测 


试 期 间 代码 的 不 确定 性 。 在 上 面 的 例子 中 ， 可 以 模拟 datetime， 然 后 设置 datetime.today 返 
回 一 个 固定 的 值 。 代 码 如 下 : 


# coding=utf-8 
import datetime 
from mock import Mock 
# 保存 周二 和 周 六 的 值 
tuesday = datetime .datetime (year=2019, month=1, day=1) 
saturday = datetime.datetime (year=2019, month=1, day=5) 
# 模拟 datetime 
datetime = Mock() 
def is weekday(): 

today = datetime.datetime.today () 

return (0 <= today.weekday() < 5) 
# 模拟 today 方 法 返回 周二 
datetime.datetime.today.return value = tuesday 
# 周二 是 工作 日 
assert is weekday () 
# 模拟 today 方 法 返回 周 六 
datetime.datetime.today.return value = saturday 
# 周 六 不 是 工作 日 


assert not is weekday() 


在 上 面 的 例子 中 ，today 是 一 个 模拟 方法 。 通 过 让 这 个 方法 返回 固定 的 值 ， 消 除了 代码 


的 不 确定 性 。 在 第 一 个 测试 用 例 中 ， 确 认 周二 是 工作 日 ; 在 第 二 个 测试 用 例 中 ， 确 认 周 六 
不 是 工作 日 。 现 在 ， 运 行 测试 用 例 的 日 期 不 再 重要 ， 因 为 datetime 的 行为 已 经 被 模拟 并 控 
制 了 对 象 的 行为 。 


在 构建 测试 用 例 时 ， 可 能 会 遇 到 模拟 函数 返回 值 不 能 满足 需求 的 情况 ， 这 是 因为 函数 
通常 比 简单 的 单项 逻辑 流 更 复杂 。 有 时 候 ， 我 们 希望 在 测试 中 多 次 调用 某 个 方法 可 以 返回 
不 同 的 值 ， 甚 至 引发 异常 ， 这 时 可 以 用 Mock 对 象 的 副作用 来 完成 这 样 的 需求 。 


11.4.3 副作用 


可 以 通过 制定 模拟 函数 的 副作用 来 控制 代码 的 行为 。Mock 对 象 的 side_effect 定义 调用 
被 模拟 函数 时 的 行为 。 下 面 通过 一 个 新 的 函数 来 说 明 如 何 使 用 副作用 。 


# coding=utf-8 
import requests 
def get _ holidays() : 
# 调用 HTTP 接 口 获取 节假日 
r= requests.get('http://localhost/api/holidays') 
if r.status code == 200: 
return r.json() 
return None 


get_holidays( ) 方法 调用 一 个 HITP 服务 获取 节假日 的 信息 。 正 常情 况 下 ，get holidays ( ) 
方法 会 返回 一 个 字典 ， 出 现 异常 时 ， 会 返回 None。 

可 以 通过 模拟 requests.get 的 行为 来 测试 在 网 络 连接 超时 get_holidays( ) 方法 的 行为 。 
示例 代码 如 下 : 


# coding=utf-8 
import unittest 
from requests.exceptions import Timeout 
from unittest.mock import Mock 
# 模拟 requests 库 的 行为 
requests = Mock() 
def get holidays(): 
# 调用 HTTP 接 口 获取 节假日 信息 
r= requests.get('http://localhost/api/holidays') 
if r.status code == 200: 
return r.json() 
return None 
class TestCalendar (unittest.TestCase): 
def test get holidays timeout (self): 
测试 连接 超时 的 情况 
requests.get.side effect = Timeout 
with self.assertRaises (Timeout) : 
get_holidays () 
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if name == '_ main 


unittest-main() 


使 用 assertRaise( ) 方法 可 以 确保 get_ holidays( ) 方法 会 抛 出 异常 ， 抛 出 的 异常 定义 在 
requests.get.side_effect 中 。 如 果 想 要 动态 设置 副作用 ， 则 可 以 自 定义 一 个 方法 ， 然 后 传 入 参 


数 


o 


示例 代码 如 下 : 


import requests 
import unittest 
from unittest.mock import Mock 


# 模拟 requests 库 的 行为 


requests 


= Mock() 


def get holidays(): 
# 通过 HTTP 请 求 获取 节假日 信息 


r= 


requests.get ('http://localhost/api/holidays') 


if r.status code == 200: 


return r.json() 


return None 
class TestCalendar (unittest.TestCase): 


def 


def 


log request (self, url): 
# 输出 调试 信息 
print (u' 现 在 请 求 url: %s' % url) 
# 创建 一 个 模拟 返回 对 象 
response mock = Mock() 
response mock.status code = 200 
response mock.json.return value = { 
N225.> Christmasy, 
'7/4': 'Independence Day', 
} 
return response mock 
test get holidays _ logging (self): 
# 测试 一 次 成 功 的 请 求 
requests.get.side effect = self.1og_request 
assert get holidays()['12/25'] == 'Christmas' 


在 上 面 的 代码 中 ， 首 先 创建 log request( ) 方法 ， 该 方法 接受 url 作为 参数 ， 输 出 一 些 
调试 信息 ， 然 后 返回 一 个 Mock 响应 对 象 。 接 下 来 设置 requests.get 的 side_effect 为 log _ 
request， 当 调用 get_holidays( ) 函数 时 ，log_reques( ) 方法 将 被 调用 。 

也 可 以 传 入 多 个 副作用 组 成 的 可 迭代 对 象 。 每 个 副作用 必须 由 返回 值 、 异 常 或 者 两 者 
的 组 合 组 成 。 每 调用 一 次 被 模拟 的 方法 ， 可 迭代 对 和 象 都 会 产生 下 一 个 值 。 示 例 代码 如 下 : 


class TestCalendar (unittest.TestCase): 


def test get holidays retry (self): 
# 创建 一 个 Mock 对 象 模拟 请 求 的 返回 
response mock = Mock() 
response mock.status code = 200 
response mock.json.return value = { 
12/25": "Christmas's 
'7/4': 'Independence Day', 


} 
# 设置 get 方 法 的 副作用 
requests.get.side effect = [Timeout, response mock] 
# 第 一 次 调用 会 抛 出 超时 异常 
with self.assertRaises (Timeout) : 
get holidays () 
# 第 二 次 调用 会 返回 模拟 的 值 
assert get holidays()['12/25'] == 'Christmas' 


11.4.4 ”限定 模拟 的 范围 


mock 包 提 供 的 patch( ) 方法 可 用 来 模拟 对 象 ， 这 个 方法 可 查找 给 定 模块 中 的 对 象 并 用 
Mock 对 象 替 换 该 对 象 。 一 般 情 况 下 ， 使 用 patch 作为 装饰 器 或 上 下 文 管理 器 ， 以 限定 模拟 
目标 对 象 的 范围 。 

在 之 前 的 例子 中 ， 我 们 在 同一 个 文件 中 创建 Mock 对 象 和 使 用 requests 包 。 下 面 我 们 在 
另 一 个 模块 中 对 requests 包 “ 打 补丁 ”。 创 建 一 个 tests.py 文件 ， 文 件 内容 如 下 : 


import unittest 
from my_calendar import get holidays 
from requests.exceptions import Timeout 
from unittest.mock import patch 
class TestCcalendar (unittest.TestCase): 
# 给 my_calendar 里 调用 的 requests 包 " 打 补 丁 " 
@patch('my_ calendar.requests') 
def test get holidays timeout (self, mock requests): 
# 设置 副作用 为 抛 出 超时 
mock requests.get.side effect = Timeout 
with self.assertRaises (Timeout) : 
get holidays() 
# 确认 模拟 的 请 求 方法 有 被 调用 到 


mock requests.get.assert called once() 


在 上 面 的 例子 中 ， 整 个 test_get_holidays_timeout( ) 方法 都 被 打上 了 “补丁 ”， 如 果 只 
想 对 这 个 方法 中 的 部 分 逻辑 “ 打 补 丁 ”， 则 可 以 将 patch( ) 方法 作为 上 下 文 管理 器 ， 以 控制 
模拟 的 范围 。 
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ET 


import unittest 
from my_calendar import get holidays 
from requests .exceptions import Timeout 
from unittest.mock import Patch 
class TestCcalendar (unittest.TestCase): 
def test get holidays timeout (self) : 
# “补丁 ”范围 只 在 with 代码 块 起 作用 
with patch('my calendar.requests') as mock requests: 
# 设置 副作用 为 抛 出 超时 异常 
mock requests.get.side _ effect = Timeout 
with self.assertRaises (Timeout) : 
get_holidays () 
mock requests.get.assert called once () 


当 测 试 执行 完 with 代码 块 中 的 内 容 后 ，patch( ) 方法 会 将 被 模拟 的 对 象 替换 成 原始 的 模 
块 (requests) 。 

如 果 只 想 对 一 个 对 象 中 的 一 个 方法 进行 模拟 ， 如 test_get_holidays_timeout( )， 其 实 只 需 
要 模拟 requests.get( ) 方 法 , 而 无 须 模拟 整个 requests 模块 , 这 时 可 以 使 用 patch.object( ) 方 法 。 
示例 代码 如 下 : 


import unittest 
from my_calendar import requests, get holidays 
from unittest.mock import patch 
class TestCalendar (unittest.TestCase): 
# 只 模拟 requests 中 的 get 方 法 , 副作用 是 抛 出 超时 异常 
@patch.object (requests, ‘'get', side effect=requests.exceptions.Timeout) 
def test get holidays timeout (self, mock requests): 
with self.assertRaises (requests.exceptions.Timeout): 
get_holidays () 


在 运行 企业 关键 业务 的 网 站 上 ， 哪 怕 一 个 小 小 的 缺陷 ， 都 可 能 会 带 来 极 大 的 损失 ， 这 
对 网 站 开发 者 提出 了 很 大 的 挑战 。 

在 编写 代码 时 ， 测 试 对 验证 应 用 程序 逻辑 是 否 正确 、 可 靠 和 高 效 至 关 重要 。 测 试 的 价 
值 取决 于 它们 展示 这 些 标准 的 程度 。 复 杂 的 逻辑 和 不 可 预测 的 依赖 性 会 使 编写 有 价值 的 测 
试用 例 变 得 困难 。 

本 章 首先 介绍 了 单元 测试 的 基本 概念 ， 以 及 编写 单元 测试 用 例 的 好 处 。 作 为 Web 应 用 
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框架 ，Django 提供 了 非常 好 用 的 测试 工具 ， 接 下 来 介绍 了 如 何 使 用 Django 编写 测试 用 例 ， 
以 及 如 何 使 用 Django 的 测试 类 ; Python 语言 也 有 非常 成 熟 的 测试 框架 Mock， 本 章 最 
后 介绍 了 如 何 通 过 “ 打 补 丁 ” 方 式 来 消除 业务 逻辑 中 复杂 和 不 可 控 的 部 分 。 


习 


问题 一 : 什么 是 单元 测试 ? 
问题 二 : Django 的 TestCase 和 unittest 的 TestCase 有 什么 关系 ? 


GAINR HUHNE EIA 


高 可 用 技术 架 


第 12 章 Django 与 部 署 


软件 交付 一 直 是 开发 人 员 和 研究 人 员 探 讨 的 热门 话题 。 为 了 能 更 快 、 更 稳定 地 将 软件 交付 到 用 
户 手中 ，IT 工作 者 做 了 大 量 的 工作 。 

对 于 Web 开发 来 说 ，Django 能 让 开发 网 站 的 工作 变 得 稍微 轻松 一 些 ， 但 是 如 果 不 能 轻松 地 部 
署 站 点 ， 则 不 能 很 快 地 让 用 户 用 到 网 站 的 功能 ， 之 前 的 工作 就 是 徒劳 的 。 值 得 庆幸 的 是 ，Django 提 
供 了 一 些 好 用 的 工具 ， 这 些 工 具 让 部 署 工作 变 得 容易 一 些 。 

除了 Django 框架 外 , 还 有 很 多 开源 工具 , 如 Ansible、Docker 等 , 可 帮助 开发 者 部 署 和 运行 应 用 。 

本 章 主 要 涉及 的 知识 点 : 

@ 软件 部 署 : 了 解 什么 是 软件 部 署 。 

@ 部 署 Django 应 用 : 学 习 如 何 部 署 Django 应 用 。 

@ 虚拟 化 技术 : 学 习 如 何 使 用 虚拟 化 技术 来 部 署 Django 应 用 。 


软件 部 署 的 目的 是 让 用 户 能 用 上 软件 。 广 泛 意义 上 的 部 署 在 需求 提出 的 时 候 就 开始 了 。 
在 计算 机 刚刚 诞生 的 时 代 ， 计 算 机 非常 昂贵 ， 体 积 也 非常 庞大 ， 当 时 软件 通常 和 制造 商 的 
硬件 捆绑 在 一 起 。 要 在 计算 机 上 安装 商业 软件 ， 需 要 专门 的 架构 师 和 咨询 人 员 参 与 才能 够 
实现 ， 这 个 过 程 费时 又 费力 。 

随 着 微型 计算 机 和 个 人 计算 机 的 出 现 ， 大 众 软件 蓬勃 发 展 ， 新 的 软件 分 发 形式 出 现 了 。 
例如 ， 光 盘 、 互 联网 和 1 盘 都 可 以 用 来 安装 软件 ， 软 件 的 部 署 移 交 给 了 软件 的 使 用 者 。 

现在 是 云 计算 时 代 ， 大 家 渐渐 接受 了 软件 即 服务 的 概念 。 在 “ 云 ” 上， 软件 供应 商 可 
以 通过 互联 网 在 几 分 钟 内 将 软件 交付 给 大 量 客户 。 这 就 是 说 ， 软 件 的 部 署 由 软件 的 供应 商 
而 不 是 用 户 决定 。 特 别 是 对 于 Web 应 用 程序 ， 部 署 方式 变 得 越 来 越 灵 活 ， 部 署 速度 变 得 越 
来 越 快 ， 持 续 交 付 变 得 越 来 越 流行 。 

部 署 软 件 有 可 能 会 涉及 以 下 5 个 操作 排名 不 代表 执行 的 顺序 )。 

1. 发 布 代码 ( 俗称 “打包 ”) 

发 布 代码 是 指 在 软件 功能 开发 完成 或 者 缺陷 修复 后 ， 将 代码 组 装 成 能 在 生产 环境 中 运 
行 的 状态 。 有 时 候 ， 发 布 代码 还 需要 确定 运行 代码 所 需要 的 资源 ， 如 数据 资源 、 计 算 资 源 、 
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网 络 资源 、 存 储 资源 等 ， 并 规划 后 续 活动 和 记录 部 署 过程 。 在 发 布 代 码 完成 后 ， 会 给 该 软 
件 记录 一 个 编号 ， 这 个 编号 一 般 称 为 版 本 号 。 

2. 安装 

在 简单 的 系统 上 ， 自 动 或 手动 地 执行 某 些 命令 、 脚 本 就 能 将 软件 安装 在 目标 机 器 上 。 
对 于 复杂 的 系统 ， 还 会 涉及 软件 的 配置 ， 这 些 配 置 往往 由 用 户 确定 ， 软 件 提供 商 可 以 通过 
询问 终端 用 户 关 于 软件 的 使 用 方式 来 最 终 确 定 软件 的 配置 。 

按照 使 用 目的 的 不 同 ， 运 行 软件 的 环境 分 为 生产 环境 、 测 试 环境 、 开 发 环境 等 。 用 户 使 
用 的 软件 一 般 安装 在 生产 环境 ， 用 于 编写 、 调 试 代码 的 环境 一 般 称 为 开发 环境 ， 用 于 系统 不 
同 组 件 集成 测试 的 环境 一 般 称 为 测试 环境 。 不 同 环境 安装 的 代码 和 配置 可 能 会 有 一 些 差异 。 

在 复杂 的 生产 环境 中 ， 不 同 版 本 的 软件 可 能 同时 存在 。 这 样 的 发 布 策略 有 很 多 用 处 ， 
可 以 在 不 影响 服务 稳定 的 条 件 下 实现 服务 的 升级 ， 或 者 验证 功能 。 

3. 激活 

这 里 的 激活 并 不 是 指 输入 软件 许可 证 或 输入 码 ， 而 是 让 软件 运行 起 来 。 例如 ，Web 应 
用 的 激活 就 是 启动 服务 进程 ， 监 听 某 个 配置 好 的 端口 。 

4. 更 新 

更 新 是 指使 用 软件 的 较 新 版 本 全 部 或 部 分 替换 早期 版 本 。 一 般 情 况 下 ， 更 新 内 容 包括 
停 用 老 版 本 、 安 装 新 版 本 和 激活 新 版 本 。 

5. 回 滚 

更 新 软件 的 过 程 中 有 时 候 会 遇 到 一 些 异 常情 况 ， 如 软件 的 逻辑 无 法 如 预期 执行 ， 或 者 
软件 依赖 的 环境 没有 适 配 新 的 软件 版 本 等 。 在 这 种 情况 下 ， 通 用 做 法 是 使 用 老 版 本 的 软件 
替换 更 新 的 软件 ， 让 软件 能 够 快速 恢复 正常 运行 ， 这 种 做 法 叫 作 回 滚 。 

越 来 越 复杂 的 软件 让 部 署 也 变 得 复杂 起 来 ， 随 之 出 现 了 协调 和 设计 部 署 过 程 的 专业 角 
色 ， 这 些 角 色 通 常会 随 着 应 用 程序 从 测试 进展 到 生产 环境 而 发 生变 化 。 部 分 企业 和 组 织 会 
为 软件 的 重要 发 布 成 立 专门 的 小 组 ， 组 内 成 员 包 括 软件 开发 者 、 软 件 发 布 者 、 测 试 人 员 、 
系统 管理 员 、 数 据 库 管理 员 及 发 布 协调 者 等 角色 。 


12.2) 部 署 Django 


Django 自 带 了 一 个 轻 量 级 的 Web 服务 器 ， 通 过 执行 命令 python manage.py runserver 可 
以 将 这 个 服务 器 运行 起 来 并 监听 默认 的 8080 端口 。 这 个 服务 器 主要 为 开发 和 调试 提供 环境 ， 


Django 项 目 开发 实战 


并 不 保证 安全 和 性 能 ， 因 此 不 能 在 生产 环境 中 这 样 运行 服务 。 

好 在 经 过 开源 社区 多 年 的 努力 ， 已 经 开发 出 了 很 多 用 于 Django、Flask 等 Python Web 
框架 部 署 的 工具 。 使 用 这 些 工 具 能 够 很 快 地 部 署 Django 应 用 ， 并 保证 足够 的 安全 和 性 能 。 
接 下 来 学 习 几 个 常用 的 工具 。 


12.2.1 Web 服务 网 关 接 口 


在 21 世纪 初 , Python 拥 有 各 种 各 样 的 Web 应 用 程序 框架 , 如 Zope、Quixote、Webware 等 。 
对 于 Python 新 手 来 说 ， 在 众多 的 框架 中 进行 选择 是 一 个 令 人 头疼 的 问题 ， 各 个 框架 和 Web 
服务 器 之 间 的 接口 往往 不 统一 ， 在 采用 了 某 个 框架 之 后 ， 只 能 使 用 特定 的 Web 服务 器 部 署 
应 用 程序 。 

Web 服务 网 关 接口 “Web Server Gateway Interface，WSGI) 为 Web 服务 器 和 Web 应 用 
程序 提供 了 与 实现 无 关 的 接口 ， 让 不 同 的 Python Web 框架 有 共同 的 开发 基础 。 

WSGI 定 义 了 以 下 接口 。 

@ 服务 器 端 /网 关 接 口 。 在 生产 环境 中 ， 通 常 使 用 功能 完备 的 Web 服务 器 软件 ， 如 

Apache 或 Nginx。 
@ 应 用 程序 /框架 接口 。 这 是 一 个 Python 可 调用 对 象 ,由 Python 应 用 程序 或 框架 提供 。 


WSGI 的 工作 方式 如 图 12.1 所 示 。 
文件 系统 
(静态 文件 ) 


Web 服 务 器 
Python 应 用 程序 


WSGI 没有 指定 应 该 如 何 启动 Python 解释 器 ， 也 没有 指定 应 该 如 何 加 载 和 配置 应 用 程 
序 对 象 ， 不 同 的 框架 和 Web 服务 器 可 以 有 不 同 的 实现 方式 。 
在 服务 器 和 应 用 程序 之 间 ， 可 能 有 一 个 或 多 个 WSGI 中 间 件 。 这 些 中 间 件 通常 是 


12.1 WSGI 的 工作 方式 
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Python 实现 的 组 件 ， 既 需要 实现 服务 器 接口 ， 也 需要 实现 应 用 程序 接口 。 

WSGI 中间 件 是 Python 可 调用 对 象 ， 因 此 它 本 身 就 是 一 个 WSGI 应 用 程序 。 它 可 以 自 
己 处 理 请 求 ， 也 可 以 将 请 求 委托 给 其 他 WSGI 应 用 程序 来 处 理 ， 当 然 ， 这 些 应 用 程序 可 以 
是 WSGI 中间 件 。 中 间 件 一 般 用 来 实现 下 面 的 功能 。 

@ 在 相应 地 更 改 环境 变量 后 ， 根 据 目标 URL 将 请 求 路 由 到 不 同 的 应 用 程序 对 象 。 

@ 在 同一 个 进程 中 运行 多 个 应 用 程序 。 

@ 通过 网 络 转发 请 求 和 响应 来 实现 负载 均衡 和 远程 处 理 请 求 。 

@ 对 部 分 格式 内 容 进行 通用 处 理 。 

下 面 我 们 使 用 Python 来 编写 与 WSGI 兼容 的 应 用 程序 ， 在 程序 中 会 : 

(1) 定义 一 个 名 为 application 的 可 执行 对 象 ， 这 个 函数 接受 两 个 参数 ， 即 environ 和 
start_response。environ 是 一 个 字典 ， 包 含 了 CGI 环境 变 量 、 请 求 的 其 他 参数 和 元 数据 。 
start_response 接受 两 个 参数 : status 和 response headers。status 是 响应 状态 码 ，repsonse_ 
headers 是 响应 的 标 头 。 

(2) 调用 start response 方法 ， 指 定 本 次 的 响应 状态 码 是 “200 OK”， 响 应 的 标 头 指 
定 标 头 Content-Type 为 text/plain。 

(3) 调用 yield 方法 将 application 函数 编程 为 一 个 生成 器 ， 返 回 的 数据 为 “Hello 
World”。 示 例 代码 如 下 : 


def application (environ, start response): 
start response('200 OK', [('Content-Type', 'text/plain')]) 
yield b'Hello, World\n' 


12.2.2 ”配置 YWSGI 服 务 器 


uWSGI 是 部 署 Django 应 用 常用 的 软件 ， 它 旨 在 构建 任意 类 型 的 Web 托管 服务 。 从 名 
字 上 就 能 看 出 来 ，uWSGI 和 WSGI 有 很 大 的 关系 ， 事 实 上 ，WSGI 就 是 uWSGI 支持 的 第 一 
个 插件 。 使 用 uWSGI 部 署 Django 有 很 多 好 处 ， 具 体 如 下 。 

@ uWSGI 附带 了 一 个 WSGI 适 配器 , 这 个 适配器 支持 WSGI 接 口 的 Python 应 用 程序 。 

@ uWSGI 使 用 C 语 言 编写 ， 并 链接 了 libpython。 这 让 它 能 像 Python 解释 器 一 样 在 启 

动 时 加 载 应 用 程序 代码 。 它 对 传 入 的 请 求 进行 解析 后 ， 执 行 Python 的 可 调用 对 象 。 
@ UWSGI 支持 流行 Web 服务 器 ， 如 Nginx。 
@ uWSGI 拥有 各 种 组 件 ， 扩 展 起 来 很 方便 。 
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@_ UWSGI 支持 以 异步 和 同步 的 方式 运行 应 用 程序 。 

@ 与 其 他 应 用 服务 器 相 比 ，UWSGI 占用 内 存 更 少 。 

uWSGI 支持 pre-fork 模型 ， 在 应 用 服务 器 的 上 下 文中 ， 该 模型 意味 着 应 用 服务 器 会 
生成 一 定数 量 的 进程 ， 生 成 的 进程 将 负责 处 理 传 入 的 请 求 ， 这 些 生成 的 进程 称 为 工作 进 
程 。 在 类 UNIX 系统 上 ， 生 成 这 些 进程 使 用 了 fork( )， 工 作 进程 继承 了 父 进程 地 址 空间 
的 副本 。 

当 父 进程 调用 fork( ) 时 ， 操 作 系 统 不 会 复制 父 进程 的 内 存 页 ， 而 是 采用 copy-on-write 
策略 ， 该 策略 为 子 进程 创建 一 些 数据 结构 ， 子 进程 并 没有 复制 父 进程 的 堆 数 据 ， 而 是 
创建 指向 父 进程 的 堆 的 指针 。 在 子 进程 需要 对 堆 写 入 时 ， 再 将 父 进程 的 堆 数 据 复 制 到 
新 的 空间 。 

当 使 用 uWSGI 创建 多 个 进程 时 ，uWSGI 将 在 第 一 个 进程 中 初始 化 应 用 程序 ， 然 后 不 
断 调 用 fork( ) 方法 直到 工作 进程 的 数量 达到 设置 的 值 ， 如 图 12.2 所 示 。 


调用 fork()| 工作 进程 
| 从 父 进程 复制 应 用 
初始 化 进程 | 工作 进程 
加 载 Web 应 用 |、| 从 父 进程 复制 应 用 
工作 进程 
从 父 进程 复制 应 用 


12.2 uWSGI 默认 prefork 模式 


所 有 的 工作 进程 是 初始 化 进程 的 副本 ， 每 一 个 进程 都 是 一 个 初始 化 之 后 的 Web 应 用 程 
序 ， 可 以 处 理 请 求 。 使 用 这 种 方式 创建 子 进程 的 速度 很 快 ， 并 且 占 用 的 内 存 较 小 。 

不 过 使 用 prefork 模式 会 带 来 一 些 问 题 。 在 应 用 代码 中 明确 使 用 了 线程 的 情况 下 ， 这 种 
模式 会 带 来 线程 不 安全 问题 ， 甚 至 会 导致 线程 崩溃 。 我 们 可 以 使 用 uWSGI 的 lazy-apps 模 
式 来 避免 这 种 情况 。 

使 用 lazy-apps 模式 ， 我 们 可 以 确保 每 个 进程 都 是 独立 启动 的 ， 进 程 之 间 完 全 隔离 ， 如 
图 12.3 所 示 。 这 使 得 应 用 的 可 预测 性 更 好 。 

尽管 lazy-apps 模式 比 prefork 模式 更 安全 、 更 可 靠 ， 它 也 有 一 些 缺 点 。 

(1) lazy-apps 模式 会 比 prefork 模式 启动 慢 一 些 。 如 果 启 动 n 个 工作 进程 ， 则 lazy- 
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调用 fork( 工作 进程 
| 加 载 Web 应 用 
初始 化 进程 工作 进程 
不 加 载 Web 应 用 加 载 Web 应 用 
工作 进程 
加 载 Web 应 用 


图 12.3 uWSGI 的 lazy-apps 模式 


apps 模式 下 的 启动 时 间 会 是 prefork 模式 下 的 启动 时 间 的 n 倍 。 
(2) lazy-apps 模式 启动 的 服务 器 占用 更 多 内 存 。 在 操作 系统 的 角度 来 看 ， 每 个 工作 进 
程 都 是 完全 独立 的 ， 它 们 之 间 共 享 的 内 容 更 小 。 

两 种 模式 下 内 存 消息 的 差异 取决 于 应 用 程序 的 大 小 。 对 于 简单 的 应 用 程序 来 说 ， 使 用 
lazy-apps 模式 启动 会 比 prefork 模式 启动 多 使 用 大 概 15% 的 内 存 。 应 用 程序 越 大 ， 这 个 差 
异 越 显著 。 

下 面 演示 如 何 使 用 uWSGI 来 运行 Django 应 用 。 部 署 的 操作 系统 使 用 Ubuntu， 版 本 是 
16.04.6 LIS， 开 始 部 署 前 需要 将 项 目 代码 部 署 到 服务 器 上 。 

前 面 已 经 学 习 了 虚拟 环境 和 Django 的 安装 ， 这 里 不 再 过 多 介绍 。 执 行 下 面 的 命令 安装 
虚拟 环境 、Django 和 uWSGI: 


$ # 创建 虚拟 环境 

$ virtualenV e_shoes 

# 激活 虚拟 环境 

$ source e_shoes/bin/activate 
# 安装 Django 

$ pip install django 

# 安装 uWSGI 

$ 


pip install uwsgi 
安装 防火 墙 软件 并 配置 服务 器 开放 8001 端口 : 


# 安装 iptables 

$ sudo apt-get install iptables iptables-persistent 

## 配置 8001 端 口 对 外 开放 

$ sudo iptables -A INPUT -m state --state NEW -m tcp -p tcp --dport 8001-j ACCEPT 
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配置 wWSGI 服务 ， 创 建 一 个 名 为 e_shoes_uwsgiini 的 文件 ， 文 件 内 容 如 下 : 


[uwsgi] 

# 监听 的 ITP 和 端口 

http-socket = :8001 

# 放置 代码 的 目录 

chdir = /path/to/your/e_shoes 
# 存储 虚拟 环境 的 目录 

home = /path/to/virtualenv/e_shoes 
# 项 目的 wsgi 模 块 

module = e_shoes.wsgi 

master = 七 rue 

# 进程 的 数量 , 按照 实际 需要 调整 
processes = 10 

# 设置 超时 的 时 间 , 单位 是 秒 


harakiri = 20 
执行 下 面 的 命令 ， 启 动 应 用 服务 器 ， --ini 参数 用 于 指定 配置 文件 的 位 置 。 


$ uwsgi --ini e shoes uwsgi.ini 


正常 情况 下 ， 在 应 用 没有 异常 ， 正 确 配 置 了 服务 器 的 防火 墙 的 情况 下 ， 打 开 浏 览 器 ， 
进入 http: // 服务 器 IP: 8001 就 能 直接 访问 uWSGI 服务 。 

上 面 的 例子 仅仅 介绍 了 部 分 uwWSGI 的 配置 。 如 果 想 更 多 地 了 解 WSGI 的 配置 ， 则 可 
以 参考 论坛 或 uWSGI 官方 文档 。 


12.2.3 ”配置 Gunicorn 服 务 器 


Gunicorn 是 用 Python 语言 编写 的 WSGI 服务 器 ， 使 用 了 pre-fork 模型 。 这 个 模型 有 一 
个 中 央 主 进程 ， 用 于 管理 和 启动 工作 进程 ， 工 作 进程 负责 处 理 请 求 。 
使 用 Gunicom 运行 Python 应 用 有 以 下 优势 。 
Gunicom 支持 WSGI。 任 何 支 持 WSGI 的 Python 框架 都 可 以 用 它 来 运行 。 
Gunicor 支持 多 种 工作 进程 运行 的 方式 ， 并 且 会 自动 管理 工作 进程 。 
Gunicorm 使 用 Python 编写 ， 因 此 可 以 用 Python 的 模块 作为 配置 文件 ， 配 置 方便 。 
Gunicom 支持 SSL。 
Gunicom 支持 多 个 Python 版 本 。 
Gunicom 支持 在 运行 的 多 个 阶段 插入 “钩子 ”， 方 便 一 些 自 定义 的 行为 。 
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Gunicom 支持 多 种 模式 的 工作 进程 ， 这 些 模式 分 别 是 同步 模式 、 异 步 模式 、Tomado 模 
式 和 asyncio 模式 。 

同步 模式 是 Gunicom 的 默认 模式 ， 是 工作 进程 最 基本 的 模式 。 在 这 个 模式 中 ， 每 个 工 
作 进 程 一 次 只 处 理 一 个 请 求 ， 这 种 工作 模式 适用 于 处 理 不 需要 处 理 长 时 间 IO 的 请 求 。 长 
时 间 处 理 IO 的 请 求 (如 多 次 读 磁盘 ， 或 者 通过 网 络 请 求 第 三 方 服务 )， 会 让 其 他 请 求 长 时 
间 处 于 等 待 状态 ， 最 后 由 于 连接 超时 而 失败 。 同 步 模式 的 工作 方式 如 图 12.4 所 示 。 


待 处 理 的 请 求 


12.4 ”同步 模式 的 工作 方式 


在 了 解 Gunicom 的 异步 模式 前 ， 需 要 先 了 解 Python 的 协 程 。 协 程 在 代码 中 提供 了 某 种 
程度 的 并 发 性 ， 它 可 以 在 一 个 时 间 点 停止 执行 ， 切 换 到 另 一 个 协 程 ， 并 在 完成 时 返回 到 刚 
开始 的 协 程 。Python 的 greenlet 库 实现 了 协 程 。 

异步 模式 的 工作 进程 有 两 种 类 型 ， gevent 和 eventlet， 这 两 者 均 基 于 greenlet 库 ， 为 
网 络 相关 任务 提供 并 发 性 。 在 这 种 模式 下 ，Gunicorn 能 够 同时 处 理 多 个 请 求 ， 单 个 执行 
长 时 间 IO 的 请 求 不 会 将 后 面 的 请 求 阻塞 ， 这 解决 了 同步 模式 下 的 长 时 间 阻 塞 而 导致 超时 
的 问题 。 

gevent 和 eventlet 都 用 到 了 Python 的 green 线程 。 在 Python 中 ，green 线程 是 在 程序 级 
别 实现 的 线程 ， 而 不 是 在 操作 系统 级 别 实现 的 线程 。 由 于 全 局 解释 器 锁 (Global Interpreter 
Lock，GIL) 的 存在 ，Python 无 法 像 C 语言 、Java 语言 那样 使 用 多 线程 来 实现 并 发 ， 因 此 
需要 异步 IO 来 解决 并 发 问题 。 异 步 模式 的 工作 方式 如 图 12.5 所 示 。 

一 般 情 况 下 ， 不 需要 应 用 程序 做 修改 ， 只 需要 修改 配置 ， 就 能 让 Gunicom 从 同步 模式 
切换 到 异步 模式 。 

Tornado 工作 模式 通常 用 于 运行 使 用 Tomado 框架 编写 的 应 用 。 使 用 这 种 模式 需要 对 
Tomado 框架 有 所 了 解 ， 限 于 篇 幅 ， 这 里 不 做 过 多 介绍 。 
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12.5 ”异步 模式 的 工作 方式 


使 用 者 需要 根据 应 用 类 型 来 选择 Gunicom 的 模式 。 一 般 情 况 下 ， 如 果 应 用 是 CPU 密 
集 型 ， 则 推荐 选择 同步 模式 ; 如 果 应 用 需要 处 理 长 时 间 的 WO， 则 推荐 使 用 异步 模式 。 

下 面 演示 如 何 使 用 Gunicom 运行 Django 应 用 程序 。 运 行 环境 可 以 直接 使 用 uWSGI 运 
行 应 用 的 环境 。 开 始 部 署 前 需要 将 项 目 代 码 部 署 到 服务 器 上 。 

安装 防火 墙 软件 并 配置 服务 器 开放 9000 端口 : 


# 安装 iptables 

$ sudo apt-get install iptables iptables-persistent 

# 配置 9000 端 口 对 外 开放 

$ sudo iptables -A INPUT -m state --state NEW -m tcp -p tcp --dport 
9000 -j ACCEPT 


使 用 下 面 的 命令 安装 Gunicom: 
$ pip install gunicorn 


安装 完成 后 ， 创 建 一 个 新 的 文件 gunicorn_config.py 作为 Gunicomn 的 配置 文件 ， 文 件 的 
内 容 如 下 : 


# =*= coding: utF=8 =#*= 
import multiprocessing 
# 服务 监听 的 ITP 和 端口 

bind = "0.0.0.0:9000" 


第 12 章 Django 与 部 署 一 221 


# 最 大 挂 起 连接 数 
backlog = 2048 
# 工作 进程 的 数量 , 按照 业务 需求 配置 , 这 里 设置 为 CPU 核 数 *2 再 加 1 
workers = multiprocessing.cpu count ()*2+1 
# 工作 进程 的 模式 
# sync 对 应 同步 模式 , eventlet 和 gevent 对 应 异步 模式 
worker class = "Sync " 
# 单个 进程 处 理 请 求 的 线程 数 
threads = 了 
# 单 工作 进程 最 大 连接 数量 
worker connections = 1000 
# 人 设置 为 0 表示 不 重启 
max requests = 
# 诸 让 下 作 浊 入 同时 被 重启 ， 让 各 个 工作 进程 在 重启 前 处 理 的 请 求 的 数量 不 一 致 
max requests jitter = 0 
# 工作 进程 超时 时 间 
timeout = 30 
# 在 工作 进程 收 到 重启 信号 能 用 于 处 理 请 求 的 时 间 
graceful a 30 
keep alive = 
# 在 应 用 加 工 前 切换 工作 目录 
chdir = "" 
# Gunicorn 是 否 在 后 台 运 行 
daemon = False 
# 运行 Gunicorn 进 程 的 用 户 
user = None 
# 运行 Gunicorn 进 程 的 用 户 组 
group = None 
# 请 求 日 志 格式 
access logformat = '%(h)s %(1)s %(u)s %(t)s "%(r)s" %(s)s %(b)s "%(f)s %(a)s"' 
# 记录 错误 日 志 的 文件 
SPO Lo 
日 志 级 别 
log level = "info" 
# 下 面 是 6unicorn 提 供 的 钩子 函数 
def on_starting (server): 
# 在 主 进程 初始 化 之 前 调用 
pass 
def on reload(server): 
# 在 工作 进程 收 到 sIGHUP 信 号 后 调用 
pass 
def when ready(server): 
# 在 服务 器 启动 后 调用 
pass 
def pre fork(server, worker): 
# 在 工作 进程 创建 前 被 调用 
pass 
def post fork(server, worker): 


帮 在 工作 进程 创建 后 被 调用 
pass 
def post worker init (worker): 
# 在 工作 进程 初始 化 应 用 后 被 调用 
pass 
def worker init (worker): 
# 在 工作 进程 接收 sIGINT 或 SIGQUIT 信 和 号, 退出 后 被 调用 
pass 
def worker abort (worker): 
# 在 工作 进程 接收 STGABRT 信 号 时 被 调用 , 一 般 在 工作 进程 超时 时 发 出 STGABRT 信 号 
pass 
def pre exec(server): 
# 在 主 进程 创建 前 被 调用 
pass 
def pre request (worker, req): 
# 在 工作 进程 接受 请 求 前 被 调用 
worker.log.debug("%s %s" $ (req.method, req.path)) 
def post request (worker, req, environ, resp): 
# 在 工作 进程 处 理 请 求 后 被 调用 
pass 
def worker exit (server, worker): 
# 在 工作 进程 退出 时 被 调用 
pass 
def nworkers changed(server, new value, old value): 
# 在 工作 进程 数量 发 生变 化 时 被 调用 
pass 
def on exit(server): 
# 在 退出 Gunicorn 时 被 调用 


pass 

上 面 的 配置 是 使 用 Gunicorn 运行 Django 应 用 时 常见 的 配置 。 

使 用 Python 编写 的 应 用 出 现 内 存 泄漏 问题 的 概率 很 大 。Gunicom 作为 Python 语言 编写 
的 应 用 ， 处 理 内 存 泄露 的 方法 比较 简单 :重启 进程 。 相 关 的 配置 是 max_requests 选项 ， 它 
用 于 配置 单个 工作 进程 处 理 的 最 大 请 求 数 ， 在 达到 这 个 请 求 数 后 ， 工 作 进 程 会 被 重启 。 

Gunicorn 的 工作 进程 数量 一 般 设置 为 机 器 CPU 核 数 的 两 倍 ， 各 个 工作 进程 处 理 的 请 求 
数量 大 致 是 相等 的 ， 在 请 求 量 比较 大 的 情况 下 ， 容 易 出 现 多 个 工作 进程 同时 达到 请 求 的 最 
大 值 ， 从 而 一 起 重启 的 情况 ， 这 会 造成 服务 在 工作 进程 一 起 重启 的 时 间 段 内 不 可 用 。 为 了 
避免 这 种 情况 的 发 生 ，Gunicom 提供 了 max _ requests_jitter 配置 ， 这 个 配置 让 各 个 工作 进程 
的 请 求 量 上 限 不 一 样 ， 从 而 减 小 了 所 有 工作 进程 一 起 重启 的 概率 。 

执行 下 面 的 命令 运行 应 用 服务 器 : 


$ gunicorn e shoes.wsgi -c gunicorn config.py 
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正常 情况 下 ， 在 应 用 没有 异常 ， 正 确 配 置 了 服务 器 的 防火 墙 的 情况 下 ， 打 开 浏览 器 ， 
请 求 http:// 服务 器 他: 9000， 就 能 直接 访问 Gunicorn 重启 的 服务 。 


12.2.4 ”配置 Nginx 服 务 器 


Nginx 是 一 个 开源 、 高 性 能 的 HTTP 服务 器 和 反 向 代理 ， 是 IT 企业 中 广泛 使 用 的 Web 
服务 器 。 在 目前 的 场景 中 ，Nginx 有 以 下 两 个 功能 。 
@ 作为 Web 服务 器 负责 处 理 静态 文件 的 请 求 。 事 实 上 ， 在 较 大 的 互联 网 应 用 中 ,会 
使 用 内 容 分 发 网 络 ( Content Delivery Network，CDN ) 来 负责 分 发 静态 文件 ， 我 们 
在 后 面 的 章节 介绍 这 部 分 。 
@ 将 用 户 代理 的 请 求 反 向 代理 到 应 用 服务 器 。 
下 面 演示 Nginx 配置 。 示 例 使 用 域名 e_shoes.example.com， 要 想 使 用 这 个 域名 ， 需 要 
在 网 络 中 配置 完全 合格 的 域名 ， 或 者 修改 用 户 代 理 机 器 上 的 hosts 配置 。 在 Ubuntu 中 修改 
host 的 代码 如 下 (使 用 服务 器 的 真实 卫 蔡 换 掉 命 令 行 中 的 “{{ 服务 器 IP}}”) : 


$ sudo echo "{{ 服 务 器 IP}} e_shoes.example.com" > /etc/hosts 


应 用 服务 器 监听 本 机 9000 端口 ，Nginx 站 点 监听 80 端口 。 配 置 服务 器 防火 墙 : 


# 安装 iptables 

$ sudo apt-get install iptables iptables-persistent 

# 配置 80 端 口 对 外 开放 

$ sudo iptables -A INPUT -m state 一 state NEW -m tcp -p tcp --dport 80 -j ACCEPT 


在 服务 器 上 安装 Nginx 软件 ， 在 命令 行 工 具 中 执行 下 面 命令 : 


# 安装 Nginx 
$ sudo apt-get install nginx 


在 /etc/nginx/sites-available/ 目录 下 创建 e_shoes_ nginx.conf 文件 ， 文 件 内 容 如 下 : 


# e_shoes_ nginx.conf 文 件 

者 上 游 服务 配置 

upstream django { 

看 应 用 服务 器 监听 的 服务 IP 和 端口 
Server 1L27-0-021290002 


y 
# 站 点 配置 


EV 


server { 
# 站 点 监听 的 端口 
listen 80; 


# 站 点 服务 的 域名 
server name e shoes.example.com; # substitute your machine's IP address or FQDN 
charset utf-8; 
# 最 大 上 传 数 据 量 
client max body size 75M; 
# 将 以 /static 开 头 的 请 求 指向 Django 的 静态 文件 目录 
location /static { 
# 项 目 存放 静态 文件 的 文件 目录 
alias /path/to/your/e shoes/static; 


下 
# 将 其 他 请 求 导 向 应 用 服务 器 
location / { 
proxy pass http://django; 
} 
} 


创建 完成 后 ， 执 行 命令 行 操作 ， 在 /etc/nginx/sites-enabled/ 目录 下 创建 e_shopes nginx.conf 
的 软 链接 ， 之 后 重启 Nginx 服务 。 


sudo ln -s /etc/nginx/sites-available/e shoes nginx.conf /etc/nginx/sites-enabled/ 
sudo service nginx restart 


在 运行 应 用 服务 器 前 ， 需 要 收集 Django 的 静态 文件 到 指定 的 文件 夹 。 修 改 e-shoes/ 
settings.py 文件 ， 添 加 下 面 的 配置 : 


STATIC ROOT = os.path.join (BASE DIR, "static/") 


添加 完 配 置 后 ， 在 命令 行 中 执行 : 
$ python manage.py collectstatic 


完成 上 面 的 操作 后 ， 在 浏览 器 中 打开 页 面 http://e_shoes.example.com， 就 能 看 到 正常 的 
请 求 了 。 


(2.3) 服务 管理 


在 应 用 程序 成 功 运行 起 来 后 ， 我 们 的 工作 还 没有 结束 。 软 件 在 运行 过 程 中 总 是 会 出 现 
各 种 各 样 的 意外 , 如 服务 器 重启 后 应 用 程序 不 再 运行 , 甚至 是 人 为 的 误 操作 导致 程序 退出 等 。 
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这 样 的 意外 一 旦 发 生 ， 就 会 造成 服务 不 可 用 ， 给 企业 或 组 织带 来 损失 。 

打 断 工程 师 的 工作 来 处 理 这 些 意外 是 可 行 的 ， 不 过 一 方面 人 工 响应 这 类 问题 难以 做 到 
及 时 ， 另 一 方面 成 本 也 太 高 。 更 好 的 做 法 是 使 用 一 个 监督 进程 来 帮忙 管理 应 用 进程 ， 这 个 
监督 进程 需要 具备 以 下 功能 。 

@ 重启 失败 的 服务 。 

@ 管理 进程 的 状态 。 

@ 管理 上 日志。 监督 进程 可 以 捕获 服务 进程 的 标准 输出 和 标准 错误 输出 ， 并 将 这 些 输出 

重新 定向 到 日 志文 件 中 。 

@ 在 服务 器 重启 时 自动 启动 服务 。 


12.3.1 使 用 Supervisord 管 理 服务 


Supervisord 允许 我 们 在 类 UNIX 操作 系统 上 监视 且 控制 多 个 进程 。 下 面 来 演示 如 何 使 
用 Supervisord 管理 使 用 Gunicom 运行 的 Django 应 用 。 在 下 面 的 示例 中 ， 所 用 的 操作 系统 
是 Ubuntu 16.04。 开 始 部 署 前 需要 将 项 目 代码 部 署 到 服务 器 上 。 

使 用 Gunicorn 运行 Django 应 用 程序 在 前 面 已 经 介绍 过 了 ， 这 里 不 再 獒 述 。 

安装 并 重启 Supervisord， 在 命令 行 中 执行 以 下 命令 : 


$ sudo apt-get install supervisor 
$ sudo service supervisor restart 


在 /etc/supervisor/conf.d 文件 夹 下 创建 e_shoes.conf 文件 作为 服务 的 配置 文件 ， 文 件 的 
内 容 如 下 : 


# 定义 服务 名 为 e shoes 

[program:e_shoes] 

# 启动 服务 的 命令 
command=/path/to/virtualenv/bin/gunicorn -c gunicorn config.py e shoes.wsgi 
# 项 目 目录 
directory=/path/to/myproject/e_shoes 

# 服务 器 启动 时 启动 服务 

autostart=true 

看 当 服务 因 某 些 原 因 退 出 时 重启 服务 
autorestart=true 

# 重 定向 应 用 程序 的 标准 错误 输出 到 文件 

stderr logfile=/var/log/e_ shoes.err.1o0g 
# 重 定向 应 用 程序 的 标准 输出 到 文件 

stdout logfile=/var/log/e_shoes.out.1log 


Django rb 


保存 配置 文件 后 ， 让 Supervisord 读 取 这 些 配置 并 发 挥 作用 ， 在 命令 行 中 执行 以 下 命令 : 


$ sudo supervisorct1 reread 
$ sudo supervisorct1 update 


Supervisord 提供 了 命令 行 工具 来 帮助 用 户 管理 服务 ， 使 用 命令 行 ， 我 们 可 以 获得 服务 


的 状态 、 启 动 服务 、 停 止 服务 和 重启 服务 ， 如 下 面 的 命令 行 示例 : 


查看 服务 e_shoes 的 状态 

sudo supervisorctl status e shoes 
启动 e_shoes 服 务 

sudo supervisorctl start e shoes 
停止 6_shoes 服 务 

sudo supervisorctl stop e shoes 
重启 e_shoes 服 务 


sudo supervisorctl restart e shoes 


妇 大 切 韩 切 韩 切 韩 


12.3.2 ”使 用 systemd 管 理 服务 


在 类 UNIX 系统 上 ，systemd 是 非常 流行 的 服务 管理 工具 。 使 用 systemd 可 以 很 方便 地 


管理 服务 。 在 Ubuntu 16.04 环境 中 ，systemd 是 默认 安装 的 。 


下 面 演示 如 何 使 用 systemd 来 管理 使 用 Gunicom 运行 的 Django 应 用 程序 。 开 始 部 署 前 


需要 将 项 目 代码 部 署 到 服务 器 上 。 


创建 文件 /etc/systemd/system/e_shoes.service， 文 件 的 内 容 如 下 : 


[Unit] 

# 服务 描述 

Description=Gunicorn server for e_shoes .example.com 
# 在 系统 网 络 服务 启动 后 运行 服务 

有 After=network .target 

[Service] 

# 定义 环境 变量 

Environment=sitedir=/path/to/project/ 

看 运行 服务 的 用 户 

User=someuser 

# 运行 服务 的 用 户 组 

Group=someuser 

辈 启动 服务 的 命令 
ExecStart=$(sitedir)/virtualenv/bin/gunicorn -c $(sitedir)/gunicorn config. 
py e shopes.wsgi 
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# 重启 服务 的 命令 

ExecReload=/bin/kill -s HUP $MAINPID 
# 停止 服务 的 命令 

ExecStop=/bin/kill -s TERM $MAINPID 
# 总 是 重启 服务 

Restart=always 

# 工作 目录 

WorkingDirectory=$ (sitedir) 

[Installl] 

WantedBy=multi-user.target 


上 面 的 服务 配置 文件 分 为 以 下 3 部 分 。 

(1) Unit 部 分 : 指定 了 服务 的 元 数据 和 依赖 。 上 面 的 服务 定义 了 服务 的 描述 和 依赖 。 

(2) Service 部 分 : 指定 了 服务 的 运行 方式 、 启 动 策略 等 。 

(3) Install 部 分 :指定 了 该 服务 随 系统 启动 的 策略 。 上 面 的 配置 指定 了 ， 当 常规 的 多 
用 户 系统 启动 时 ， 启 动 这 个 服务 。 

systemd 提供 的 systemctl 命令 行 工具 可 用 来 帮助 管理 服务 。 使 用 这 个 命令 行 工具 ， 可 
以 手动 查看 服务 的 状态 ， 启 用 或 停止 服务 。 我 们 现在 来 启用 刚才 定义 的 服务 ， 使 用 命令 行 
终端 软件 中 执行 下 面 的 命令 : 


重新 读 取 服 务 配置 

Systemct1 daemon-reload 

启用 e_shoes 服 务 

sudo Systemct1 start e shoes.service 
让 服务 随 系统 启动 运行 

sudo systemct1 enable e _ shoes.service 
查看 服务 状态 


sudo systemct1 status e shoes.service 
如 果 执 行 systemectl status 命令 发 现 这 个 服务 有 问题 ， 则 可 以 查看 服务 日 志 。systemd- 


journald 会 自动 收集 服务 日 志 ， 并 且 提 供 了 命令 行 工具 方便 使 用 。 使 用 下 面 的 命令 可 以 查看 
服务 日 志 。 


妇 砷 访 间 仿 井 人 妨 厅 


$ sudo journalctl -u e shoes 


如 果 服 务 配 置 本 身 有 变动 ， 则 需要 重新 加 载 配置 并 且 重 启 服务 。 修 改 完 配 置 文 件 后 ， 
在 命令 行 终端 软件 中 执行 下 面 的 命令 : 


$ systemctl] daemon-reload 
$ systemct1 restart e shoes.service 


Django 项 目 开发 实战 


饭 Django 与 虚拟 化 技术 


多 年 以 来 ， 软 件 通常 直接 部 署 在 “ 裸 机 ”上 ， 如 直接 安装 在 完全 控制 底层 硬件 的 操作 
系统 上 ; 在 物理 机 上 部 署 应 用 很 难 迁 移 并 且 难 以 更 新 。 这 两 个 因素 限制 了 IT 的 能 力 ， 让 其 
不 能 灵活 响应 业务 需求 的 变化 ， 因 此 ， 虚 拟 化 技术 应 运 而 生 。 

虚拟 化 平台 《〈 也 称 为 “虚拟 机 管理 程序 ”) 允许 多 个 虚拟 机 共享 单个 物理 系统 ， 每 个 
虚拟 机 以 独立 的 方式 模拟 整个 系统 的 行为 ， 实 现 自 己 的 操作 系统 、 存 储 和 IO。 使 用 虚拟 化 
技术 ，IT 能 够 克隆 、 复 制 、 迁 移 虚拟 机 ， 不 仅 能 够 更 好 地 利用 资源 ， 而 且 可 以 更 快速 地 响 
应 业务 需求 的 变化 。 

不 过 虚拟 机 仍然 存在 一 些 问题 。 例 如 ， 虚 拟 机 的 体积 往往 非常 大 ， 因 为 每 个 虚拟 机 都 
要 包含 完整 的 操作 系统 ;配置 虚拟 机 仍然 需要 相当 长 的 时 间 ; 随 着 业务 的 发 展 速度 加 快 ， 
使 用 虚拟 机 交付 应 用 的 速度 也 会 跟 不 上 。 

于 是 ， 容 器 出 现 了 。 容 器 的 工作 方式 有 点 像 虚拟 机 ， 但 控制 的 粒度 更 细 。 容 器 隔离 了 
单个 应 用 程序 及 其 依赖 项 〈 应 用 程序 运行 所 需要 的 所 有 外 部 软件 库 ) ， 这 些 依赖 来 自 操作 
系统 和 其 他 容器 。 所 有 容器 化 的 应 用 程序 共享 一 个 通用 的 操作 系统 ， 这 些 应 用 间 彼 此 隔离 。 
应 用 了 容器 技术 的 应 用 交付 速度 会 大 大 提高 。 

本 节 将 讲解 如 何 使 用 Vagrant 和 Docker 部 署 Django。 由 于 虚拟 化 技术 的 跨 平台 特性 ， 
我 们 选择 在 Macbook 上 虚拟 Ubuntu 环境 ， 并 部 署 应 用 。 单 个 应 用 包含 Nginx、Gunicom 和 
使 用 Django 框架 开发 的 项 目 代码 ，Nginx 和 Gunicom 的 配置 在 12.3 节 已 经 做 过 介绍 ， 这 里 
将 直接 使 用 12.3 节 中 创建 的 配置 文件 。 


12.4.1 使 用 Vagrant 部 署 Django 应 用 


Vagrant 是 用 于 构建 和 管理 虚拟 化 环境 的 工具 ， 它 提供 了 易于 配置 、 可 重复 和 便携 的 工 
作 环 境 ， 并 提供 单一 且 一 致 的 工作 控制 流程 。 
首先 安装 Vagrant。 打 开 命 令 行 终端 软件 并 执行 下 面 的 命令 。 


# 安装 brew 
$ /usr/bin/ruby -e "“$(curl -fsSL https://raw.githubusercontent.com/ 
Homebrew/install/master/install)" 


# 更 新 brew 软 件 仓库 
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$ brew doctor && brew Update 

# 安装 virtualbox, 用 于 创建 虚拟 机 

$ brew cask install Virtualbox 
# 安装 Vagrant 

$ brew cask install vagrant 


进入 项 目的 根 目录 ， 进 行 Vagrant 的 初始 化 ， 我 们 选择 Ubuntu 16.04 作为 虚拟 环境 的 操 
作 系 统 ， 执 行 下 面 的 命令 : 


$ vagrant init ubuntu/xenial64 


这 个 命令 执行 后 ， 会 在 目录 下 生成 一 个 名 为 Vagrantfile 的 文件 。 这 个 文件 用 于 描述 项 
目 所 需 的 机 器 类 型 ， 以 及 如 何 配置 这 些 机 器 。 使 用 Vagrant， 最 好 在 每 个 项 目下 都 生成 一 个 
Vagrantfile 文件 ， 并 且 将 这 个 文件 提交 到 版 本 控制 系统 。 这 种 方式 可 方便 项 目的 所 有 开发 人 
员 快 速 使 用 Vagrant 搭建 起 运行 服务 的 虚拟 机 。 

为 了 方便 部 署 ， 首 先 在 项 目 中 创建 deploy 目录 ， 在 该 目录 下 创建 NGINX 和 systemd 的 
配置 文件 。NGINX 的 配置 文件 名 为 nginx_default， 文 件 内 容 如 下 : 


# 上 游 服务 配置 

upstream django { 

# 应 用 服务 器 监听 的 服务 ITP 和 端口 
server 127.0.0.1:9000; 


} 
# 站 点 配置 


server { 
# 站 点 监听 的 端口 
listen 80; 


# 站 点 服务 的 域名 
server name _ 
charset utf-8; 
# 最 大 上 传 数据 量 
Client max body size 75M; 
# 将 以 /static 开 头 的 请 求 指向 Django 的 静态 文件 目录 
location /static { 
# 项 目 存放 静态 文件 的 文件 目录 


alias /vagrant/static; 


} 
# 将 其 他 请 求 导 向 应 用 服务 器 
location / { 

proxy pass http://django; 
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systemd 的 配置 文件 名 为 e_shoes.service， 配 置 文件 定义 了 服务 的 启动 方式 、 服 务 名 、 
运行 的 环境 等 ， 文 件 内 容 如 下 : 


[Unit] 

# 服务 描述 

Description=Gunicorn server for e shoes.example.com 
# 在 系统 网 络 服 务 启动 后 运行 服务 
After=network.target 

[Service] 

# 定义 环境 变量 
Environment=sitedir=/vagrant 

# 运行 服务 的 用 户 

User=vagrant 

# 运行 服务 的 用 户 组 

Group=vagrant 

# 启动 服务 的 命令 
ExecStart=/usr/local/bin/gunicorn -c $ (sitedir) /gunicorn config.py e shopes.wsgi 
# 重启 服务 的 命令 

ExecReload=/bin/kill -s HUP $MAINPID 
# 停止 服务 的 命令 

ExecStop=/bin/kill -s TERM $MAINPID 
# 总 是 重启 服务 

Restart=always 

# 工作 目录 

WorkingDirectory=$ (sitedir) 

[Instal1] 

WantedBy=multi-user.target 


修改 Vagrantfile， 让 虚拟 机 的 配置 符合 运行 服务 的 要 求 ， 配 置 文件 应 该 包含 虚拟 机 的 类 
型 、 内 存 和 CPU 的 资源 等 信息 ， 文 件 内 容 如 下 : 


# =-*= mode: ruby =* 一 
# vi: set ft=ruby : 
Vagrant .configure ("2") do |config| 
# 设置 虚拟 机 类 型 
config.vm.box = "ubuntu/xenial64" 
# 设置 通过 virtualbox 启 动 的 虚拟 机 的 内 存 和 cPU 
config.vm.provider "virtualbox" do 1vbl 
vbh.memory = "1024" 
vb.cpus = 2 
end 
# 配置 虚拟 机 网 络 
config.vm-network "public network", use dhcp assigned default route: true 
# 设置 在 启动 时 配置 的 环境 


config .vm.provision "shell", inline: <<-SHELL 
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更 新 软件 仓库 
apt-get update 
# 安装 Nginx 和 Python 软件 
apt-get install -Y nginx python2.7 python-pip 
# 安装 应 用 依赖 的 包 
pip install gunicorn django==1.8 
cd /vagrant && Python manage.py collectstatic --noinput 
# 配置 Nginx 
cp /vagrant/deploy/nginx default /etc/nginx/sites-available/default 
# 配置 systemd 服 务 
cp /vagrant/deploy/e_shoes.service /etc/systemd/system/e_ shoes.service 
# 重启 Nginx 服 务 
service nginx restart 
# systemd 重 新 读 取 配 置 
Systemct1 daemon-reload 
# 重启 e shoes 服 务 
Systemct1 restart e shoes.service 
SHELL 
end 


设置 这 些 配置 后 ， 现 在 让 服务 运行 起 来 ，Vagrant 提供 的 命令 行 工具 vagrant 用 于 管理 
虚拟 机 。 在 项 目 目录 下 ， 打 开 命 令 行 软件 ， 执 行 下 面 的 命令 : 


# 启动 虚拟 机 


$ vagrant up 


第 一 次 运行 这 个 命令 ， 需 要 花费 一 些 时 间 ， 因 为 Vagrant 会 通过 网 络 下 载 虚拟 机 镜像 ， 
并 将 虚拟 机 运行 起 来 。 可 以 通过 下 面 的 命令 得 到 虚拟 机 的 他 地址 : 


$ vagrant ssh -c "ip address" 


得 到 虚拟 机 他 地址 后 ， 打 开 浏 览 器 ， 进 入 http: // 虚拟 机 全， 正常 情况 下 ， 就 能 看 到 
服务 泻 染 的 页 面 了 。 


12.4.2 ”使 用 Docker 部 署 Django 应 用 


Docker 和 容器 是 运行 软件 的 一 种 新 方式 ， 它 正在 彻底 改变 软件 开发 和 交付 的 方式 。 

流行 的 虚拟 机 管理 程序 ， 如 HyperV、KVM 和 Xen， 都 是 基于 模拟 虚拟 硬件 的 ， 这 意 
味 着 这 些 技术 需要 实现 复杂 的 操作 系统 。 但 是 ， 多 个 容器 可 以 共享 一 个 操作 系统 ， 使 用 容 
器 来 管理 应 用 程序 比 虚拟 机 更 有 效 ， 也 更 节省 资源 。 


容器 受 欢 迎 的 另 一 个 原因 是 其 适用 于 持续 集成 和 持续 部 署 。 持 续集 成 和 持续 部 署 鼓励 
开发 者 尽 可 能 多 地 提交 代码 , 然后 快速 有 效 地 部 署 代码 。 Docker 使 开发 人 员 能 够 轻松 地 打包 、 
分 发 和 运行 任何 应 用 程序 ， 这 些 容器 几乎 可 以 在 任何 地 方 运行 。 

Docker 构建 在 Linux 容器 (LXC) 上 ， 它 有 自己 的 文件 系统 、CPU、 内 存 。Docker 容 
器 和 虚拟 机 之 间 的 关键 区 别 在 于 : 虚拟 机 管理 程序 抽象 整个 硬件 设备 ， 而 容器 只 是 抽象 操 
作 系 统 内 核 。 综 上 ，Docker 容器 的 好 处 如 下 。 

@ 灵活 : 即使 是 最 复杂 的 应 用 也 可 以 容器 化 。 

@ 轻 量 级 : 容器 利用 并 共享 主机 内 核 。 

@ 便于 升级 : 可 以 随时 部 署 更 新 和 升级 。 

@ 方便 : 可 以 在 本 地 构建 ， 部 署 到 云 上 ， 并 在 任何 地 方 运行 。 

@ 易 分 发 : 可 以 增加 并 自动 分 发 容器 副本 。 

接 下 来 我 们 来 演示 如 何 用 Docker 来 部 署 Gunicom 运行 的 Django 应 用 程序 。 和 虚拟 机 
部 署 类 似 ， 部 署 的 操作 环境 是 Ubuntu 16.04， 选 用 Ubuntu 16.04 作为 基础 镜像 。 开 始 部 署 
前 需要 将 项 目 代 码 部 署 到 服务 器 上 。 

首先 安装 Docker 软件 ，Docker 分 为 企业 版 和 社区 版 ， 这 里 选用 社区 版 本 ， 在 命令 行 软 
件 中 执行 下 面 的 命令 : 


# 镍 载 旧 版 本 

$ sudo apt-get remove docker docker-engine docker.io containerd runc 

# 更 新 软件 源 

$ sudo apt-get update 

# 人 允许 apt 使 用 HTTPS 

$ sudo apt-get install -y apt-transport-https ca-certificates curl 
gnupg-agent software-properties-common 

# 添加 Docker 的 GPK 密 钥 

$ curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt- 
key add — 

# 添加 Docker 的 镜像 源 

$ sudo add-apt-repository "deb [arch=amd64] https://download.docker. 
com/linux/ubuntu $ (lsb release -cs) stable" 

# 更 新 软件 源 

$ sudo apt-get update 

# 安装 Docker 


$ sudo apt-get install -~y docker-ce docker-ce-cli containerd.io 


安装 好 Docker 后 ， 我 们 来 构建 应 用 的 第 一 个 镜像 。Docker 提供 了 Dockerfile 机 制 ， 可 
指定 构建 镜像 的 步骤 ，Docker 会 按照 指定 的 步骤 一 步 步 执行 ， 最 后 构建 出 镜像 。 在 项 目的 


第 12 章 Django 与 部 署 汪 233 


根 目录 下 新 建 一 个 名 为 Dockerfile 的 文件 ， 文 件 内 容 如 下 : 


# 基础 镜像 是 Ubuntu 16.04 

FROM ubuntu:16.04 

# 将 文件 复制 到 vagrant 目 录 下 , 这 个 目录 名 可 以 自己 取 

COPY . /vagrant 

# 升级 软件 源 

RUN apt-get update 

# 安装 Nginx、Python 和 pip 

RUN apt-get install -Y nginx python2.7 python-pip 

# 安装 项 目的 依赖 包 

RUN pip install django==1.8 gunicorn 

# 收集 静态 文件 

RUN cd /vagrant g&& Python manage.py collectstatic --no-input 
# 配置 Nginx 

RUN cp /vagrant/deploy/nginx default /etc/nginx/sites-available/default 
# 启动 Nginx 服 务 

RUN service nginx restart 

# 设置 运行 应 用 的 命令 


CMD cd /vagrant && gunicorn -c gunicorn config.py e_ shoes.wsgi 


然后 执行 docker build 命令 ， 打 包 镜 像 ，build 命令 可 以 指定 构建 的 上 下 文 和 构建 的 镜 
像 名 。 示 例 代码 如 下 : 


# 在 项 目的 根 目录 下 构建 名 为 e shoes:0.0.1 的 Docker 镜 像 
$ docker build =t @ shoes:0-0.1 


Successfully built 0eddcal298fb 
Successfully tagged e shoes:0.0.1 
# 查看 Docker 镜 像 列表 ,能 看 到 刚 打 包 的 镜像 和 基础 Jbuntu 16.04 镜 像 


$ docker images 


REPOSITORY TAG IMAGE ID CREATED SIZE 
e_shoes 0.0.1 0eddcal298fb About a minute ago 491MB 
ubuntu 16.04 2a697363a870 4 weeks ago 119MB 


镜像 构建 完成 后 ， 接 下 来 运行 容器 ， 期 望 在 容器 运行 起 来 后 ， 能 通过 网 络 访问 容器 内 
的 应 用 。 通 过 上 面 的 配置 可 以 得 知 容器 内 会 运行 Nginx 和 Gunicom。 默 认 情况 下 ，Docker 
容器 网 络 采用 桥接 模式 ， 从 容器 外 无 法 直接 访问 。 因 此 ， 需 要 在 运行 容器 的 时 候 通 过 “-p” 
参数 将 容器 的 端口 发 布 到 宿主 机 。 在 命令 行 终端 软件 中 执行 下 面 的 命令 : 

$ Docker run -d --name e shoes -p 80:80 -p 9000:9000 e_shoes:0.0.1 


b969f5fal9d98c37fba95d886c10d903cd80b7ad60a874885ced00f3c749a893 
$ Docker ps 
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CONTAINER ID IMAGE COMMAND CREATED 
STATUS PORTS NAMES 
b969f5fal9d9 eshoes:00.1 "/bin/sh -c ‘cd /vag..." 18 seconds ago 
Up 17 seconds 0.0.0.0:9000->9000/tcp, 0.0.0.0:80->80/tcp e_ shoes 


在 上 面 的 Docker run 命令 中 ，“-d” 参 数 指定 容器 以 分 离 模式 启动 ，“--name” 参 数 指 
定 一 个 容器 名 ，“-p” 参 数 指定 宿主 机 和 容器 的 端口 映射 。 正 确 配 置 的 情况 下 ,打开 浏览 器 ， 
进入 http: // 服务 器 全 ， 就 能 正常 看 到 项 目 页 面 。 

可 以 通过 Docker logs 命令 查看 容器 的 日 志 : 


$ Docker lo0gs e shoes 

[2019-06-13 08:14:20 +0000] [6] [INFO] Starting gunicorn 19.9.0 
[2019-06-13 08:14:20 +0000] [6] [INFO] Listening at: http://0.0.0.0:9000 (6) 
[2019-06-13 08:14:20 +0000] [6] [INFO] Using worker: sync 

[2019-06-13 08:14:20 +0000] [10] [INFO] Booting worker with pid: 10 
[2019-06-13 08:14:20 +0000] [11] [INFO] Booting worker with pid: 11 
[2019-06-13 08:14:20 +0000] [14] [INFO] Booting worker with pid: 14 
[2019-06-13 08:14:20 +0000] [15] [INFO] Booting worker with pid: 15 
[2019-06-13 08:14:20 +0000] [16] [INFO] Booting worker with pid: 16 


值得 注意 的 是 ， 将 Gunicom 配置 中 的 daemon 设置 为 False， 可 使 Gunicorn 进程 以 前 台 
形式 运行 。 对 于 Docker 容器 而 言 ， 其 启动 程序 就 是 容器 应 用 程序 ， 主 进程 退出 ， 容 器 也 会 
退出 ， 因 此 需要 启动 程序 以 前 台 形 式 运行 。 


12.4.3 ”Docker 的 reap 问 题 


使 用 Docker 容器 部 署 应 用 的 时 候 ， 应 该 了 解 reap 问题 ， 如 果 使 用 时 不 加 注意 ， 则 可 能 
会 出 现 意 想不到 的 情况 。 

僵尸 进程 是 指 执行 完成 (通过 exit 系统 调用 , 或 运行 时 发 生 错误 退出 或 收 到 终止 信号 ) ， 
但 在 操作 系统 进程 表 中 仍然 有 一 个 表 项 ， 处 于 “终止 状态 ”的 进程 。 

进程 会 处 于 这 个 状态 ， 是 为 了 让 其 父 进程 读 取 它 的 退出 状态 。 一 旦 父 进程 通过 wait 系 
统 调用 读 取 子 进程 的 退出 状态 ， 僵 尸 进程 条 目 就 会 从 进程 表 中 删除 ， 这 个 过 程 称 为 reap。 
正常 情况 下 ， 进 程 条 目 最 后 都 会 从 进程 表 中 删除 ， 进 程 长 时 间 处 于 僵尸 状态 ， 一 般 表 明 其 
出 现 了 错误 ， 最 后 会 造成 资源 泄露 。 

在 Linux 系统 中 ， 当 子 进程 结束 时 ， 系 统 会 向 父 进 程 发送 SIGCHILD 信号 ， 期 望 父 进 
程 对 子 进程 执行 wait 系统 调用 。 如 果 父 进程 没有 调用 ， 则 子 进程 将 保留 在 进程 表 中 ， 形 成 
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僵尸 进程 。 

系统 管理 员 可 以 手动 向 父 进程 发 送 SIGCHILD 信号 。 如 果 父 进程 仍然 拒绝 reap 僵尸 子 
进程 ， 则 系统 会 终止 父 进程 ， 并 让 PID 为 1 的 init 进程 成 为 僵尸 子 进程 的 父 进 程 ， 我 们 把 
这 种 行为 称 为 init 进程 “收养 ”了 子 进程 。init 进程 会 周期 调用 wait 系统 ， 以 reap 其 所 收 
养 的 所 有 僵尸 进程 。 

在 很 多 使 用 Docker 的 场景 中 ， 容 器 内 PID 为 1 的 进程 不 具有 reap 的 能 力 ， 这 会 带 来 
一 些 问 题 。 假 设 存在 这 样 一 种 情况 : 容器 内 的 主 进程 是 一 个 Web 服务 器 ， 这 个 服务 器 运行 
Bash 编写 的 脚本 , 脚本 中 调用 了 grep。 在 一 次 请 求 中 , Web 服务 器 发 现 脚本 执行 超时 , 并 “ 杀 
掉 ” 了 脚本 进程 ， 但 是 脚本 进程 启动 的 grep 进程 继续 执行 ， 它 的 父 进程 变 成 了 Web 服务 器 
进程 。 当 grep 进程 执行 完成 后 ， 就 变 成 了 僵尸 进程 ， 此 时 ，Web 服务 器 进程 并 没有 reap 这 
个 僵尸 进程 ， 最 后 grep 僵尸 进程 就 留 在 了 系统 进程 表 中 ， 直 到 Web 服务 器 进程 停止。 

在 其 他 情况 下 ， 如 果 容 器 内 运行 的 主 进程 不 具备 reap 能 力 ， 则 类 似 的 问题 也 会 存在 。 
有 一 些 系统 方案 可 以 解决 这 个 问题 ， 如 systemd。 不 过 对 于 容器 来 说 ， 这 样 的 方案 显得 有 些 

“ 重 ”， 因 为 systemd 除了 能 处 理 reap 问题 外 ， 还 有 许多 其 他 功能 ， 而 这 些 功能 无 法 在 容 
器 中 使 用 。 

一 个 简单 的 方式 是 使 用 Bash 启动 主 进程 ，Bash 会 正确 reap 收养 的 进程 ， 并 且 Bash 可 

以 执行 任何 程序 。 只 需要 对 12.4.2 节 Dockerfile 文件 的 最 后 一 行进 行 修改 即 可 ， 示 例如 下 : 


# 原来 的 启动 命令 

# CMD cd /app && gunicorn -c gunicorn conf.py e_shoes.wsgi 

# 使 用 Bash 的 启动 命令 

QD ["/bin/bash", "-c", "cd /vagrant && gunicorn -c gunicorn conf.py e shoes.wsgi"] 

不 过 ， 使 用 Bash 启动 主 进程 将 不 能 处 理 容器 的 信号 。 例 如 ， 向 Bash 进程 发 送 一 个 
SIGTERM 信号 ，Bash 进程 会 终止 ， 但 是 并 不 会 将 信号 传递 给 子 进程 。 当 Bash 进程 终止 时 ， 
内 核 会 停止 整个 容器 和 其 中 的 进程 。 容 器 内 的 进程 会 收 到 SIGKILL 信号 ，SIGKILL 信号 无 
法 被 捕获 。 假 如 应 用 程序 正在 写 文件 过 程 中 被 不 正确 地 终止 ， 则 可 能 会 导致 文件 损坏 。 

Docker 提供 了 一 个 解决 方案 ， 即 在 运行 容器 时 指定 “--init” 参 数 。 对 于 使 用 “--init” 
参数 启动 的 容器 ， 应 用 程序 会 被 Docker 内 部 的 微型 init 系统 封装 。 这 个 init 系统 会 保证 将 
信号 传递 给 子 进程 。 命 令 行 示例 如 下 : 


$ Docker run -d --init --name e shoes -p 80:80 -p 9000:9000 e@ shoes:0.0.1 
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软件 功能 只 有 在 被 用 户 使 用 后 ， 才 会 产生 价值 。 为 了 让 用 户 能 够 使 用 软件 的 功能 ，IT 
工作 者 需要 将 软件 部 署 到 某 个 环境 。 本 章 介绍 了 软件 部 署 的 基本 概念 和 流程 。 

采用 Django 能 够 提高 部 署 效率 。 这 不 仅 在 于 框架 本 身 提供 的 功能 便于 部 署 ， 也 在 于 流 
行 的 应 用 服务 器 都 能 很 好 地 支持 Django 部 署 。 本 章 介 绍 了 Web 网 关 接 口 的 概念 ， 学 习 了 
uWSGI 和 Gunicom 这 两 个 部 署 Django 应 用 常用 的 应 用 服务 器 ， 还 学 习 了 配置 Nginx 这 个 
常用 的 Web 服务 器 。 

在 传统 的 IT 理念 中 ， 部 署 属于 运 维 范畴 。 互 联网 的 快速 发 展 ， 对 软件 的 交付 速度 和 质 
量 提出 了 越 来 越 高 的 要 求 。 应 对 这 样 的 形势 ， 除 了 需要 研发 各 种 工具 提升 部 署 效率 和 可 靠 
性 外 ， 也 需要 软件 开发 者 越 来 越 多 地 参与 到 交付 流程 中 来 。 本 章 讲 解 了 如 何 使 用 虚拟 机 和 
Docker 来 运行 Django 服务 。 持 续 交 付 正 变 得 越 来 越 流行 ， 虚 拟 化 技术 未 来 会 是 IT 从 业者 
的 必 备 技能 。 


和 练习 


问题 一 : 软件 部 署 一 般 会 涉及 哪 几 个 操作 ? 
问题 二 : Docker 能 带 来 什么 好 处 ? 
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第 10 章 讲解 了 如 何 使 用 各 种 工具 部 署 Django 应 用 。 在 现实 场景 中 ， 仅 仅 让 应 用 运行 起 来 是 不 
够 的 ， 我 们 还 需要 面 对 其 他 问题 ， 例 如 : 出 于 成 本 考虑 ， 单 台 机 器 的 计算 、 存 储 、 网 络 等 资源 无 法 
无 限 增加 ; 机 器 始终 存在 断 电 、 断 网 时 无 法 工作 的 风险 ; 升级 应 用 程序 可 能 会 导致 一 段 时 间 内 服务 
不 可 访问 等 。 

保证 服务 100% 不 会 宕 机 几乎 是 不 可 能 的 ， 软 件 开发 者 应 该 尽量 提升 服务 的 可 用 性 ， 而 负载 均 
衡 技术 能 够 为 Web 系统 提供 元 余 和 均衡 工作 负载 ， 从 而 有 效 提高 服务 的 可 用 性 和 服务 的 吞吐 量 。 采 
用 Django 开发 的 应 用 程序 编写 灵活 ， 部 署 起 来 方便 ， 非 常 有 利于 接 入 各 种 实现 负载 均衡 的 系统 。 

本 章 主要 涉及 的 知识 点 : 

@ ”负载 均衡 调度 算法 : 了 解 常 用 的 负载 均衡 调度 算法 。 

@ 负载 均衡 技术 : 了 解 实现 负载 均衡 系统 常用 的 工具 和 技术 。 

@ 动态 服务 发 现 : 了 解 如 何 利用 动态 发 现 技术 实现 系统 的 升级 、 扩 容 和 故障 处 理 。 


负载 均衡 技术 旨 在 优化 资源 使 用 率 、 最 大 化 吞吐 量 、 最 小 化 响应 时 间 ， 并 避免 单个 资 
源 过 度 负载 。 使 用 负载 均衡 技术 可 以 通过 宛 余 提高 可 靠 性 和 可 用 性 ， 其 最 常见 的 用 法 是 让 
多 个 服务 器 提供 统一 的 网 路 服务 。 负 载 均衡 有 多 种 实现 方法 ， 每 种 方法 都 有 自己 的 优势 ， 
要 根据 实际 的 情况 进行 选择 。 下 面 介绍 几 种 常用 的 算法 。 


13.1.1 循环 调度 算法 


循环 调度 算法 是 一 种 简单 的 负载 均衡 方法 。 采 用 这 种 方法 ， 负 载 均衡 调度 器 从 任务 队 
列 中 选 出 任务 ， 将 任务 依次 分 配给 服务 进程 。 假 设 现在 有 A、B、C 这 3 个 服务 进程 ， 调 度 
器 依次 做 如 下 事情 。 

(1) 从 任务 队列 中 取出 一 个 任务 ， 分 配给 A。 

(2) 从 任务 队列 中 取出 一 个 任务 ， 分 配给 B。 
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(3) 从 任务 队列 中 取出 一 个 任务 ， 分 配给 C。 
(4) 重复 上 面 的 操作 ， 直 到 任务 队列 为 空 。 
循环 负载 均衡 工作 过 程 如 图 13.1 所 示 。 


> 
服务 A | 服务 B 服务 C 
请 求 请 求 请 求 
请 求 队列 
请 求 
请 求 
请 求 


13.1 循环 负载 均衡 工作 过 程 
使 用 Python 语言 实现 随机 分 配 算法 如 下 : 


from itertools import islice, cycle 
def roundrobin (*iterables) : 
# 实现 Round Robin 算 法 
pending = len(iterables) 
nexts = Cycle (iter(it) .next for it in iterables) 
while pending: 
Ep: 
for next in nexts: 
# 返回 下 一 个 任务 
yield next () 
except StopIteration: 
pending -= 1 
nexts = cycle(islice (nexts, pending)) 
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提 测试 调用 
print 1ist(roundrobin (range (5), "hello")) 


入 出 结果 O02 hen 2 ol 
循环 调度 算法 确保 每 个 服务 器 都 参与 处 理 请 求 。 不 同 请 求 要 求 的 计算 量 和 资源 量 是 不 


同 的， 不 同 的 服务 器 处 理 不 同 请 求 的 时 间 不 同 ， 会 出 现 某 些 服务 器 处 理 队列 堆积 的 情况 ， 
最 后 会 造成 不 同 服务 器 之 间 的 负载 不 均衡 的 结果 。 在 现实 场景 中 , 这 样 的 问题 是 不 可 避免 的 。 


13.1.2 最少 连接 调度 算法 


最 少 连接 调度 算法 将 请 求 定 向 到 具有 最 少 连 接 数 量 的 服务 器 , 这 是 一 种 动态 调度 算法 ， 


因为 它 需要 动态 计算 每 个 服务 器 的 连接 数 来 估计 其 负载 。 负 载 均衡 器 记录 每 个 服务 器 的 连 
接 数 , 在 分 配 新 连接 数 时 增加 服务 器 的 连接 数 , 并 在 连接 关闭 或 超时 时 减 小 服务 器 的 连接 数 。 


在 实现 中 ， 往 往 考虑 后 端 服务 出 现 故障 的 情况 。 如 果 某 个 后 端 服务 不 能 提供 访问 ， 则 


调度 器 不 能 将 请 求 转发 给 它 。 最 少 连 接 调 度 算法 如 图 13.2 所 示 。 


二 从 
服务 A 服务 B 服务 C 
Ne Ws SD 
请 求 
请 求 
请 求 
请 求 
请 求 队列 
请 求 
请 求 
请 求 
请 求 


13.2 最少 连 接 调度 算法 
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实现 最 少 连接 调度 算法 的 伪 代码 如 下 : 


假设 服务 器 的 集合 为 S = {S0，S1,.……，Sn-1]， 
W(Si) 用 于 表示 Si 服务 器 的 权重 
C(Si) 用 于 表示 Si 服务 器 当前 的 连接 数 
for (m= 0;m<n; mt+) { 
# 如 果 Sm 服 务 器 能 够 接受 访问 
if (W(Sm) > 0) { 
EL 
# 表示 Si 个 服务 器 目前 不 可 接受 访问 
if (W(Si) <= 0) 
continue; 
# 选取 连接 数 少 的 服务 器 
dE (CISE) < Clsmn)) 
m= i; 


上 
# 返回 选择 的 结果 
return Sm; 

i 


} 
return NULL; 


13.1.3 ” 哈 希 调度 算法 


在 前 面 提 到 的 两 种 算法 中 ， 请 求 可 以 由 后 端的 任意 服务 器 处 理 。 不 过 有 些 场景 要 求 将 
来 自 某 个 客户 端的 请 求 发 送 到 特定 的 服务 器 ， 不 然 可 能 会 导致 应 用 程序 会 话 中 断 ， 对 客户 


端 产生 负面 影响 。 
维护 客户 端 和 服务 器 之 间 关联 的 一 种 简单 方法 是 使 用 用 户 的 人 P 地 址 ， 这 种 方式 也 称 为 


源 他 关联。 基于 了 Pp 的 哈 希 调度 算法 如 图 13.3 所 示 。 


服务 器 3 
IP3: 端口 3 


图 13.3 ”基于 IP 的 哈 希 调度 算法 
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一 般 有 两 种 执行 源 他 关联 的 方法 : 

(1) 使 用 专门 的 负载 均衡 算法 ， 即 对 请 求 源 卫 进行 哈 希 运算 后 确定 处 理 这 次 请 求 的 
服务 器 。 

(2) 在 内 存 中 保存 一 张 表 ， 表 中 是 卫 和 服务 器 对 应 的 关系 。 

使 用 专门 的 哈 希 算法 得 到 的 结果 是 确定 的 。 算 法 必须 将 服务 器 的 数量 和 权重 考虑 进去 。 
如 果 可 用 服务 器 的 数量 或 服务 器 的 权重 变化 , 则 分 发 流量 行为 也 会 发 生变 化 。 如果 处 理 不 当 ， 
则 可 能 让 所 有 客户 端的 请 求 转移 到 与 之 前 不 同 的 服务 器 上 。 

哈 希 负载 算法 应 该 考虑 到 这 个 问题 。 如 果 某 个 服务 器 宕 机 ， 则 只 有 连接 到 这 个 服务 器 
的 请 求 会 被 导向 其 他 服务 器 ， 当 该 服务 器 恢复 的 时 候 , 用 户 的 请 求 重 新 被 导向 这 个 服务 器 。 

可 以 使 用 非 确 定性 的 负载 均衡 算法 ， 如 循环 调度 算法 和 最 少 连 接 调 度 算法 ， 将 用 户 导 
向 某 个 服务 器 。 在 确定 用 户 卫 和 服务 器 后 ， 负 载 均衡 调度 器 的 内 存 中 保留 忆 和 服务 器 的 
映射 ， 在 映射 生效 的 时 间 范 围 内 ， 所 有 来 自 该 客户 端的 人 P 都 将 会 转发 到 对 应 的 服务 器 。 


Web 服务 是 一 种 网 络 服务 ， 网 络 高 可 用 是 Web 服务 高 可 用 的 基础 。 一 些 Web 负载 均衡 
技术 的 实现 机 制 也 建立 在 网 络 高 可 用 的 基础 上 。 在 学 习 常 用 的 负载 均衡 技术 前 ， 我 们 先 了 
解 一 些 实现 高 可 用 网 络 的 技术 。 


13.2.1 网卡 绑 定 


网 卡 绑 定 是 将 两 个 或 多 个 网 络 接口 组 合成 单个 接口 的 过 程 。 采 用 网 卡 绑 定 技术 不 仅 能 
增加 网 络 吞 吐 量 ， 而 且 能 提供 元 余 。 如 果 一 个 网 卡 坏 掉 或 者 被 拔 掉 ， 则 另 一 个 接口 还 能 继 
续 工 作 。 这 项 技术 可 用 于 需要 容错 、 宛 余 或 网 络 负载 均衡 的 场景 。 

在 Linux 系统 中 ， 这 种 将 多 个 网 络 接口 连接 到 一 个 接口 的 技术 是 通过 名 为 bonding 的 特 
殊 内 核 模块 实现 的 。 这 个 模块 能 将 两 个 或 多 个 网 络 接口 连接 到 单个 逻辑 bonded 接口 。 

Linux 的 网 卡 绑 定 有 7 种 模式 ， 常 用 的 有 3 种 : 主动 - 被 动 模式 、 动 态 链接 模式 和 自 适 
应 负载 均衡 模式 。 

主动 -被 动 模式 也 叫 作 主动 备份 模式 。 在 这 种 模式 下 ， 一 个 网 卡 处 于 活动 状态 而 另 一 
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个 网 卡 处 于 休眠 状态 。 如 果 工 作 状态 的 网 卡 发 生 故 障 ， 则 另 一 个 网 卡 将 变 为 活动 状态 。 昌 
然 这 种 模式 不 能 增加 吞吐 量 , 但 是 在 发 生 故 障 的 时 候 可 以 提供 宛 余 .如 果 使 用 了 VLAN 网 络 ， 
则 使 用 这 种 模式 是 非常 保险 的 。 主 动 -被动 模式 的 工作 方式 如 图 13.4 所 示 。 


| 交 扫 机 1 | | sp | 
EE | 


二 -十 


图 13.4 主动 -被动 模式 的 工作 方式 


自 适应 负载 均衡 模式 也 叫 作 负载 均衡 模式 。 在 这 种 模式 下 ， 网 络 流量 会 均衡 地 流向 各 
个 网 卡 。 这 种 模式 还 支持 故障 转移 ， 以 提供 元 余 。 这 种 模式 不 需要 交换 机 做 特殊 配置 ， 不 
过 在 VLAN 网 络 中 工作 会 有 问题 。 自 适应 负载 均衡 模式 的 工作 方式 如 图 13.5 所 示 。 


交换 机 1 


13.5 自 适 应 负载 均衡 模式 的 工作 方式 


动态 链 路 聚合 模式 也 叫 作 链 路 聚合 模式 。 聚 合 的 网 卡 可 以 当 作 一 个 网 卡 使 用 ， 这 种 模 
式 可 以 提高 网 络 吞吐 量 , 在 网 卡 出 现 故障 的 情况 下 可 以 支持 故障 转移 。 要 想 使 用 这 种 模式 ， 
交换 机 需要 支持 正 EE 802.3ad 协议 。 动 态 链 路 聚合 模式 是 网 卡 绑 定 的 首选 模式 ， 但 要 求 交 
换 机 做 正确 的 配置 。 


13.2.2 ”虚拟 路 由 器 匈 余 


虚拟 路 由 器 元 余 协议 《Virtual Router Redundancy Protocol，VRRP) 是 一 种 常用 协议 ， 
可 用 来 为 网 络 提供 高 可 用 性 。 通 过 VRRP， 可 以 将 一 组 路 由 器 设置 为 默认 网 关 路 由 器 ， 以 
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实现 备份 或 元 余 的 目的 。 

VRRP 通过 创建 虚拟 路 由 器 来 实现 元 余 的 目的 。 虚拟 路 由 器 是 多 个 路 由 器 的 抽象 表示 ， 
即 一 个 路 由 器 组 包含 多 个 路 由 器 ， 一 个 作为 主 路 由 器 ， 另 外 的 作为 备用 路 由 器 。 网 络 中 的 
主机 将 默认 网 关 分 配给 虚拟 路 由 器 而 不 是 物理 路 由 器 。 如 果 主 路 由 器 出 现 故 障 ， 则 备用 路 
由 器 会 自动 替换 它 。 

虚拟 路 由 器 必须 使 用 00-00-5E-00-01-XX 作为 其 MAC 地 址 ， 其 中 “XX” 是 虚拟 路 由 
器 的 标识 符 ， 网 络 中 的 每 个 虚拟 路 由 器 拥有 不 同 的 标识 符 。 这 个 MAC 地 址 一 次 只 由 一 个 
物理 路 由 器 使 用 , 当 虚 拟 路 由 器 的 下 地址 发 送 ARP 请 求 时 , 它 将 使 用 此 MAC 地 址 进行 回复 。 

如 果 一 段 时 间 内 备用 路 由 器 没有 从 主 路 由 器 接收 多 播 数据 包 ， 则 它 会 认为 主 路 由 器 出 
现 了 故障 。 此 时 ， 虚 拟 路 由 器 转换 到 不 稳定 状态 ， 备 用 路 由 器 将 启动 选举 机 制 来 选择 下 一 
个 主 路 由 器 。 

Keepalived 是 Linux 上 流行 的 实现 路 由 宛 余 的 软件 ， 它 使 用 VRRP 在 Linux 服务 器 之 间 
提供 高 可 用 性 。Keepalived 的 工作 方式 如 图 13.6 所 示 。 


虚拟 人 P 


服务 器 服务 器 
运行 Keeplaived 运行 Keeplaived 


图 13.6 ”Keepalived 的 工作 方式 


接 下 来 在 Ubuntu 虚拟 服务 器 上 演示 如 何 使 用 Keepalived， 网 络 拓扑 如 图 13.7 所 示 。 


enp0s8:vip: 
192.168.1.2/24 


服务 器 1 服务 器 2 
enp0s8:192.168.1.9/24 enp0s8:192.168.1.10/24 


13.7 示例 网 络 拓扑 
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服务 器 1 和 服务 器 2 都 需要 运行 Keepalived 服务 。 首 先 安 装 Keepalived 软件 ， 在 终端 
软件 中 执行 下 面 的 命令 : 


$ sudo apt-get update 

# 安装 Keepalived 

$ sudo apt-get install keepalived 

# 修改 sysct1l1 .conf 的 值 ,修改 net .ipv4.ip nonlocal bind 变 量 
net.ipv4.ip nonlocal bind = 1 

# 让 修改 生效 

$ sudo sysctl -p 


修改 Keepalived 的 配置 文件 ， 并 重启 服务 。 配 置 文件 的 路 径 是 /etc/keepalived/ 
keepalived.conf， 配 置 内 容 如 下 : 


vrrp instance VI 1 { 
# 网 络 接口 的 名 称 
interface enp0s8 
# 设置 为 主 路 由 器 
state MASTER 
# 虚拟 路 由 ID 
virtual router id 51 
# 优先 级 ,备用 路 由 器 的 优先 级 要 低 于 主 路 由 器 
priority 101 
# 虚拟 TP 地 址 
virtual ipaddress { 
192.168.1.2 dev enp0s8 label enp0s8: vip 
1 
3 


配置 完成 后 重启 服务 , 查看 虚拟 IP 是 否 成 功 配置 , 并 在 宿主 机 上 验证 虚拟 人 P 是否 可 达 。 
命令 如 下 : 


# 在 两 全 虚拟 机 上 重启 服务 
$ sudo service keepalived restart 
# 在 虚拟 机 上 验证 虚拟 IP 是 否 成 功 配置 
$ ip addr show enp0s8 
3: enp0s8: <BROADCAST,MULTICAST,UP,LOWER UP> mtu 1500 qdisc pfifo fast 
state UP group default qlen 1000 
link/ether 08:00:27:08:fl:le brd ff:ff:ff:ff:ff:ff 
inet 192.168.1.9/24 brd 192.168.1.255 scope global enp0s8 
Valid 1ft forever preferred 1ft forever 
inet 192.168.1.2/32 scope global enp0s8:vip 
valid 1ft forever preferred 1ft forever 
inet6 fe80::a00:27ff:fe08:flle/64 scope link 
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Valid 1ft forever preferred 1ft forever 
# 在 宿主 机 上 检查 虚拟 IP 网 络 是 否 可 达 
$ ping 192.168.1.2 
了 PING T92168s12. (192=1685162):" 56 data bytes 
64 bytes from 192.168.1.2: icmp seq=0 tt1=64 time=0.292 ms 
64 bytes from 192.168.1.2: icmp seq=1 tt1=64 time=0.296 ms 


假设 存在 这 样 一 种 情况 ， 主 路 由 器 和 备用 路 由 器 都 运行 正常 ， 但 是 两 者 之 间 的 网 络 出 
现 隔 离 ， 导 致 两 者 收 不 到 彼此 发 送 的 报 文 。 这 种 隔离 持续 一 段 时 间 后 ， 备 用 路 由 器 认为 主 
路 由 器 出 现 了 故障 ， 发 起 选举 ， 重 新 选 出 一 个 主 路 由 器 。 对 于 网 络 中 的 其 他 主机 而 言 ， 会 
存在 两 个 主 路 由 器 宣称 自己 占有 虚拟 全， 这 种 现象 称 为 “ 脑 裂 ”。 出 现 这 种 情况 时 ， 应 该 
采取 措施 尽快 恢复 主 路 由 器 和 备用 路 由 器 之 间 的 网 络 。 


li.3) 常用 负载 均衡 器 


为 了 保证 Web 应 用 程序 的 高 可 用 性 和 性 能 ， 通 常会 使 用 多 个 应 用 服务 器 ， 然 后 使 用 负 
载 均衡 器 接收 用 户 的 请 求 ， 将 请 求 导 向 后 端的 应 用 服务 器 。 目 前 有 许多 流行 的 软件 可 以 起 
到 负载 均衡 器 的 作用 ， 它 们 在 服务 架构 中 有 着 非常 重要 的 地 位 。 


13.3.1 ”负载 均衡 器 的 类 型 


应 用 程序 通过 网 络 进行 通信 ， 需 要 不 同 的 软件 和 硬件 合作 | 第 七 层 应 用 层 
完成 。 为 了 将 复杂 的 问题 简化 ， 需 对 通信 过 程 中 的 相关 功能 进 


行 分 层 。 开 放 式 系统 互 连 (Open System Interconnection，OSI) ”第 六 层 表示 层 

将 网 络 通信 抽象 为 7 层 模型 ， 如 图 13.8 所 示 。 第 五 层 会 话 层 
按照 OSI 模型 定义 的 层级 ， 负 载 均衡 器 分 为 4 层 负载 均 

衡器 和 7 层 负载 均衡 器 。 自居 Ca 


4 层 负载 均衡 器 工作 在 传输 层 。 传 输 层 负责 处 理 消息 | 第 三 层 网 络 层 
的 传递 而 不 考虑 消息 的 内 容 。HTTP 使 用 了 传输 控制 协议 
(Transmission Control Protocol，TCP) ， 故 4 层 负载 均衡 器 
简单 地 将 网 络 数据 包 转 发 到 上 游 服 务 器 ， 并 转发 上 游 服务 器 ”| 第 一 层 物理 层 
的 数据 包 ， 不 检查 数据 包 的 内 容 。4 层 负载 均衡 器 可 以 通过 图 13.8 OSI 模型 


Django 项 目 开发 实战 


检查 TCP 流 中 的 前 几 个 数据 包 来 做 出 有 限 的 路 由 决策 。 

7 层 负载 均衡 器 工作 在 应 用 层 。HITP 就 是 工作 在 第 七 层 的 协议 。 第 七 层 负载 均衡 器 的 
工作 方式 比 第 四 层 负载 均衡 器 更 复杂 ， 它 会 截取 流量 ， 读 取 其 中 的 信息 ， 并 根据 消息 的 内 
容 〈 如 URL、Cookie) 做 出 负载 均衡 的 决策 。 然 后 ， 它 与 选 定 的 上 游 服 务 器 建立 新 的 TCP 
连接 ， 并 将 请 求 写 入 服务 器 。 

与 7 层 负载 均衡 器 相 比 ，4 层 负载 均衡 器 需要 的 计算 量 更 小 ; 在 IT 发 展 的 早期 ， 客 户 
端 和 服务 器 之 间 的 交互 不 如 现在 复杂 ， 所 以 当时 采用 4 层 负载 均衡 器 是 一 种 更 流行 的 流量 
处 理 方法 。 遵 循 摩尔 定理 ， 硬 件 性 能 提高 的 同时 价格 也 在 降低 ， 现 在 的 CPU 和 内 存 已 经 足 
够 便宜 ， 大 多 数 情况 下 ，4 层 负 载 均衡 器 的 性 能 优势 可 以 忽略 不 计 。 

相 比 4 层 负载 均衡 器 ，7 层 负载 均衡 器 更 加 耗 时 ， 计 算 量 也 更 大 ， 不 过 它 可 以 提供 更 
丰富 的 功能 ， 从 而 带 来 更 高 的 整体 效率 。 例 如 ，7 层 负载 均衡 器 可 以 确定 客户 端 请 求 的 数 
据 类 型 ， 从 而 不 必 在 所 有 的 服务 器 上 复制 相同 的 数据 。 


13.3.2” Linux 虚拟 服务 器 


Linux 虚拟 服务 器 〈 下 面 简称 LVS) 是 基于 Linux 操作 系统 内 核 的 负载 均衡 软件 。 这 个 
软件 采用 集群 技术 ， 可 用 来 构建 高 性 能 和 高 可 用 性 的 服务 器 ， 并 提供 良好 的 可 扩展 性 、 可 
靠 性 和 可 维护 性 。 

LVS 是 工作 在 第 四 层 的 负载 均衡 软件 , 主要 用 来 构建 高 可 用 性 的 网 络 服务 , 如 Web 服务 、 
电子 邮件 服务 、 媒 体 服务 、 语 音 服务 等 。 

使 用 LVS 需要 了 解 下 面 的 术语 。 

(1) LVS 负载 均衡 器 (LVS director) : 负载 均衡 器 用 户 接收 所 有 传 入 的 客户 端 请 求 ， 
并 将 这 些 请 求 定向 到 特定 的 “真实 服务 器 ”来 处 理 请 求 。 

(2) 真实 服务 器 (real server) : 真实 服务 器 是 构成 LVS 集群 的 节点 ， 用 于 代表 集群 
提供 服务 。 

(3) 虚拟 全 (VIP) : LVS 集群 对 外 表现 的 就 像 一 台 服 务 器 。 虚 拟 卫 是 负载 均衡 器 为 
客户 端 提供 服务 的 卫 地 址 ， 客 户 端 通过 虚拟 P 请 求 到 集群 的 服务 。 

(4) 真实 IP (RIP) : 真实 服务 器 的 他 地址 。 

(5) 控制 器 他 (DIP) : 负载 均衡 器 的 真实 卫 地 址 。 

(6) 客户 端 卫 《CIP) : 客户 端的 他 地 址 ， 是 请 求 的 源 卫 地址。 
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LVS 有 4 种 常见 的 工作 模式 ， 分 别 是 NAT 模式 、 直 接 路 由 (Direct Router，DR) 模式 、 
IP 隧道 模式 和 FULL NAT 模式 。 

由 于 IPv4 定义 的 人 数量 有 限 ， 生 产 环 境 中 难以 给 所 有 的 服务 器 分 配 公 网 人 P 地 址 。 常 
见 的 做 法 是 给 机 器 分 配 一 个 内 网 全 地 址 ， 通 过 网 络 地 址 转换 给 客户 提供 服务 。 

当 用 户 访 问 集群 提供 的 服务 时 ， 发 往 虚 拟 人 P 地 址 的 请 求 数据 包 到 达 负 载 均 衡器 。 负 载 
均衡 器 检查 目标 地 址 和 端口 号 。 负 载 均衡 器 根据 调度 算法 从 集群 中 选择 真实 服务 器 ， 然 后 
将 请 求 数据 包 中 的 目的 他 地 址 和 端口 重 写 为 所 选 服务 器 的 了 P 地 址 和 端口 ， 并 将 数据 包 转 
发 到 服务 器 。 

服务 器 处 理 完 请 求 后 ， 回 复数 据 包 给 负载 均衡 器 。 负 载 均衡 器 将 数据 包 中 的 源 他 地 址 
和 端口 重 写 为 虚拟 服务 的 源 卫 地 址 和 端口 。 

在 这 种 模式 下 ， 真 实 服务 器 必须 将 网 关 配 置 为 负载 均衡 器 的 卫 。 不 妨 设 用 户 请 求 报 文 
中 的 源 卫 和 端口 分 别 为 202.100.1.2 和 3456， 目 的 卫 和 端口 分 别 为 202.103.106.5 和 80。 
负载 均衡 器 选择 了 服务 器 2， 修 改 请 求 报 文 的 目的 卫 和 端口 分 别 为 172.16.0.3 和 80。 

服务 器 2 处 理 完 请 求 后 ， 返 回报 文中 的 源 卫 和 端口 分 别 为 172.16.0.3 和 80, 目的 人 Pp 
和 端口 分 别 为 202.100.1.2 和 3456。 负 载 均衡 器 收 到 回复 报 文 后 ， 将 回复 报 文中 的 源 卫 和 
端口 修改 为 202.103.106.5 和 80。 

NAT 模式 的 工作 过 程 如 图 13.9 所 示 。 


公 网 IP: 
202.103.106.5 
LVS 负 载 均衡 器 


卫 : 172.16.0.1/24 


服务 器 1 服务 器 2 
内 网 内 网 


IP: 172.16.0.2/24 IP: 172.16.0.3/24 
网 关 : 172.16.0.1 网 关 : 172.16.0.1 


13.9 NAT 模式 的 工作 过 程 


NAT 模式 有 一 个 问题 : 负载 均衡 器 成 为 集群 的 瓶颈 ， 因 为 所 有 流入 和 流出 的 数据 包 都 
要 经 过 负载 均衡 器 。 直 接 路 由 器 解决 了 这 个 问题 。 
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在 DR 模式 下 ， 真 实 服务 器 和 负载 均衡 器 共享 虚拟 了 P 地 址 。 负 载 均衡 器 的 虚拟 全 接口 
用 于 接收 请 求 数据 包 ， 并 将 数据 包 路 由 到 选 定 的 真实 服务 器 。 真 实 服务 器 需要 单独 配置 接 
口 用 于 传输 返回 报 文 ， 并 在 回环 接口 配置 虚拟 全 地 址 ， 这 是 为 了 让 真实 服务 器 能 够 处 理 目 
标 地 址 为 虚拟 IP 的 数据 包 ; 不 能 将 虚拟 人 P 设置 在 真实 服务 器 的 出 口 网 卡 上 ， 和 否则 真实 服 
务 器 会 响应 客户 端的 ARP 请 求 ， 从 而 造成 内 网 混乱 。 

负载 均衡 器 和 真实 服务 器 必须 通过 集线器 /交换 机 连接 。 当 用 户 访问 集群 的 虚拟 全 时 ， 
发 送 到 虚拟 他 地 址 的 数据 包 会 到 达 负 载 均衡 器 。 负 载 均衡 器 检查 数据 包 的 目的 卫 和 端口 ， 
选择 一 个 真实 服务 器 ， 然 后 将 报 文中 的 目的 MAC 地 址 修改 为 选中 的 真实 服务 器 的 MAC 地 
址 ， 最 后 将 数据 包 直 接 发 送 到 局 域 网 中 。 

真实 服务 器 接收 到 数据 包 后， 发 现 包 中 目的 王 为 自己 配置 在 回环 接口 上 的 了 瑟 地 址 ， 
因此 处 理 这 个 请 求 ， 并 将 回复 请 求 直接 发 送 给 客户 端 。DR 模式 的 工作 过 程 如 图 13.10 所 示 。 


一 一 Ce 一 一 


请 求 
LVS 负 载 均衡 器 
虚拟 
IP: 172.16.0.20/24 
服务 器 1 服务 器 2 
内 网 内 网 
IP: 172.16.0.21/24 IP: 172.16.0.22/24 
虚拟 IP〈 回 环 接口 ): 虚拟 IP 回环 接口 ): 


172.16.0.20 172.16.0.20 
13.10 ”DR 模式 的 工作 过 程 


采用 DR 模式 的 集群 能 够 处 理 很 大 的 请 求 量 ， 是 一 种 应 用 广泛 的 模式 。 不 过 使 用 这 种 
模式 需要 负载 均衡 器 和 真实 服务 器 处 于 同一 广播 域 中 ， 这 限制 了 集群 的 可 扩展 性 ， 也 不 利 
于 集群 的 异地 容 灾 。 

IP 隧道 模式 是 比 DR 模式 更 利于 扩展 的 模式 。IP 隧道 〈 卫 封装 ) 是 一 种 将 他 数据 报 封 
装 在 下 数据 报 中 的 技术 。 它 允许 将 发 往 一 个 他 地 址 的 数据 报 包 装 并 重 定向 到 另 一 个 他 地 址 ， 
这 是 网 络 中 非常 常见 的 技术 。 

在 LVS 的 卫 隧道 模式 中 ， 负 载 均衡 器 收 到 用 户 的 请 求 后 ， 选 择 真实 服务 器 ， 将 数据 包 
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封装 在 卫 数据 报 中 ， 数 据 包 中 的 源 耳 为 负载 均衡 器 的 卫 ， 目 的 外 为 真实 服务 器 的 全， 最 
后 将 数据 包 转发 到 所 选 真实 服务 器 。 

真实 服务 器 收 到 封装 的 数据 报 后 ， 解 封 数据 包 并 处 理 请 求 ， 处 理 完成 后 将 结果 直接 返 
回 给 请 求 的 用 户 。 

在 集群 中 ， 真 实 服务 器 可 以 拥有 任意 真实 IP 地 址 ， 也 就 是 说 ， 真 实 服务 器 可 以 分 布 在 
不 同 的 地 理 位 置 ， 只 要 支持 卫 隧道 ， 服 务 器 能 够 正确 解 封 所 接收 的 封装 数据 包 即 可 。 同 时 
要 注意 的 是 ， 配 置 虚拟 IP 的 网 卡 不 能 响应 ARP 请 求 : 可 以 在 不 支持 ARP 的 设置 上 配置 虚 
拟 他， 或 者 将 配置 虚拟 IP 的 设备 发 出 的 数据 包 重 定向 到 本 地 套 接 字 中 。 

IP 隧道 模式 的 工作 过 程 如 图 13.11 所 示 。 


一 一 CC) 一 一 
LVS 负 载 均衡 器 
虚拟 
IP: 172.16.0.20/24 
IP 隧 道 人 P 隧 道 


| 


服务 器 1 服务 器 2 
内 网 内 网 
IP: 172.16.0.21/24 IP: 172.16.0.22/24 


虚拟 IP〈 隧 道 接口 ): 虚拟 IP〈 隧 道 接口 ): 
172.16.0.20 172.16.0.20 


13.11 “IP 隧道 模式 的 工作 过 程 


在 NAT 模式 下 ， 负 载 均衡 器 和 真实 服务 器 必须 在 同一 个 VLAN 下 ， 否 则 负载 均衡 调 
度 器 无 法 作为 真实 服务 器 的 网 关 。LVS 的 FULL NAT 模式 解决 了 这 个 问题 。 

FULL NAT 模式 是 NAT 模式 的 升级 版 。 在 这 种 模式 下 ， 负 载 均衡 器 不 仅 会 将 请 求 数据 
包 中 的 目的 耳 替换 为 真实 服务 器 的 卫 ， 而 且 会 将 请 求 数据 包 中 的 源 耳 替换 为 负载 均衡 器 
的 卫 。 在 返回 报 文中 ， 负 载 均衡 器 将 报 文 目 的 卫 替换 为 客户 端的 卫 ， 并 将 源 了 替换 为 虚 
拟人 P。 

FULL NAT 模式 不 要 求 负载 均衡 器 和 真实 服务 器 在 同一 个 网 段 ， 因 此 支持 真实 服务 器 
的 跨 机 房 部 署 ， 不 过 这 会 带 来 一 定 的 性 能 损失 ， 同 时 真实 服务 器 不 能 直接 获取 客户 端的 请 
求 卫 。 
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LVS 的 服务 是 通过 IPVS 软件 实现 的 ， 在 Linux 内 核 2.4 及 以 上 版 本 中 ，ip_vs 模块 已 
经 是 内 核 的 一 部 分 了 。 管 理 员 通过 ipvsadm 程序 来 管理 服务 器 集群 。 


下 面 演示 如 何 安装 和 使 用 ipvsadm。 在 命令 行 终端 输入 下 面 的 命令 : 


安装 ipvsadm 
sudo apt-get update && sudo apt-get install ipvsadm 
查看 ipvsadm 的 版 本 
sudo ipvsadm -1 
IP Virtual Server version 1.2.1 (size=4096) 
Prot LocalAddress:Port Scheduler Flags 
-> RemoteAddress:Port Forward Weight ActiveConn InActConn 
添加 一 台 真 实 服务 器 , 使 用 Round Robin 调 度 算法 
sudo ipvsadm -A -t 192.168.1.10:80 -s rr 
查看 真实 服务 器 列表 
sudo ipvsadm -1 -n 
IP Virtual Server version 1.2.1 (size=4096) 
Prot LocalAddress:Port Scheduler Flags 
-> RemoteAddress:Port Forward Weight ActiveConn InActConn 
Tp A920 L080 rr 
# 使 用 加 权 Round Robin 算 法 
$ sudo ipvsadm -E -t 192.168.1.10:80 -s wrr 


妇 间 切 提 


了 妨 间 切 厢 


13.3.3 Nginx 反 向 代理 


Nginx 既 可 以 作为 4 层 负载 均衡 器 使 用 ， 也 可 以 作为 7 层 负载 均衡 器 使 用 ， 这 里 主要 
介绍 其 作为 7 层 负载 均衡 器 的 使 用 方法 。 
前 面 章节 演示 了 如 何 安装 和 使 用 Nginx。 下 面 将 重点 介绍 Nginx 的 配置 。Nsginx 最 简单 
的 负载 均衡 配置 如 下 : 


# http 协 议 块 
http { 
# 上 游 配置 
upstream myappl { 
server srvl.example.com; 
server srv2.example.com; 
server srv3.example.com; 


有 
# server 块 配置 
server { 
# 监听 端口 
listen 807 


 _ location 配置 
location / { 

proxy pass http://myappl; 
4 


上 面 的 配置 中 有 3 个 实例 运行 相同 的 服务 ， 这 3 个 实例 分 别 是 srv1、srv2 和 srv3。 默 
认 配 置 下 ， 负 载 均衡 将 使 用 循环 调度 算法 。Nginx 的 代理 支持 HTTP、HTTPS、FastCGI、 
uwsgi、SCGI、memcached 和 gRPC 协议 。 

Neginx 支持 最 少 连接 数 算法 。 在 某 些 请 求 需要 更 长 时 间 才 能 完成 的 情况 下 ， 最 少 连接 
数 算法 允许 更 公平 地 控制 应 用 程序 实例 上 的 负载 。 使 用 最 少 连接 数 算法 时 ，Nginx 将 尝试 
优先 将 新 请 求 发 送 给 不 太 繁忙 的 服务 器 ， 从 而 避免 繁忙 的 应 用 程序 服务 器 过 载 。 

在 配置 中 使 用 least_conn 指令 将 激活 最 少 连 接 负载 均衡 ， 使 用 示例 如 下 : 


upstream myappl { 
# 启用 最 小 连接 负载 均衡 
least_conn7 
SerVer srvl.example.com; 
SerVer SIV2 .example .com7 
SerVer srv3.example.com; 
} 


需要 注意 ， 使 用 循环 或 最 少 连接 数 算法 ， 没 有 后 续 客户 端的 请 求 可 能 会 发 送 到 不 同 的 
服务 器 ， 也 就 是 说 ，Nsginx 无 法 保证 同一 客户 端 每 次 都 会 请 求 到 同一 个 服务 器 。 

如 果 需 要 将 客户 端 绑 定 到 特定 的 应 用 程序 服务 器 ， 则 可 以 使 用 耳 哈 希 负载 均衡 算法 。 
使 用 这 个 算法 ， 客 户 端的 瑟 地 址 将 作为 哈 希 密 钥 ， 以 确定 应 响应 客户 端 请 求 服务 器 。 用 这 
个 方法 可 以 确保 来 自 同一 客户 端的 请 求 始 终 定向 到 同一 服务 器 。 在 配置 中 使 用 ip_hash 指令 
可 以 开启 人 P 哈 希 调度 。 示 例 代 码 如 下 : 


upstream myappl { 
ip_hash; 
server srvl.example.com; 
server srv2.example.com; 
server srv3.example.com; 
} 


可 以 为 不 同 的 服务 器 设置 不 同 的 权重 ， 以 影响 负载 调度 的 结果 。 上 面 的 循环 示例 中 没 
有 配置 服务 器 权重 ， 所 有 的 服务 器 都 有 一 样 的 概率 被 负载 均衡 器 分 发 请 求 。 当 为 服务 器 指 
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定 权重 参数 时 ， 调 度 器 做 负载 均衡 决策 时 会 将 这 个 权重 考虑 进去 ， 如 下 面 的 示例 ; 


upstream myappl { 
server srvl.example.com weight=3; 
server srv2.example.com; 
server srv3.example.com; 

. 


采用 了 上 面 的 配置 后 ， 服 务 器 每 接收 5 个 新 请 求 ， 会 将 3 个 请 求 定 向 到 srv1，1 个 请 
求 定向 到 srv2，1 个 请 求 定向 到 srv3。 

Nginx 的 反 向 代理 实现 了 服务 器 运行 状态 检查 。 如 果 来 自 特 定 服务 器 的 响应 失败 并 显 
示 错 误 ， 则 Nginx 会 将 此 服务 器 标记 为 宕 机 状态 ， 在 此 后 的 一 段 时 间 内 避免 将 请 求 定 向 到 
该 服务 器 。 

有 两 个 指令 可 以 用 来 设置 监控 检查 参数 : max_fails 和 fail_timeout。max_fails 指令 用 于 
设置 与 服务 器 通信 连续 不 成 功 的 尝试 次 数 ， 默 认 值 是 1， 当 这 个 值 设置 为 0 时 ， 将 不 会 对 
对 应 的 服务 器 启用 健康 检查 机 制 。 fail_timeout 参数 定义 Nginx 将 服务 器 标记 为 宕 机 的 时 间 。 
在 服务 器 宕 机 时 间 超过 fail_timeout 设置 的 值 后 ，Nginx 将 使 用 正常 请 求 探测 服务 器 ， 如 果 
探测 成 功 ， 则 Nginx 会 认为 服务 器 已 经 恢复 正常 。 


微服 务 架构 日 益 流行 ， 在 编写 业务 代码 时 ， 常 常 需 要 通过 网 络 调用 第 三 方 的 服务 。 而 
要 想 通 过 网 络 发 起 服务 请 求 ， 首 先 要 知道 服务 的 地 址 (IP 地 址 和 端口 ) 。 而 在 传统 的 应 用 
程序 中 ， 服 务 的 地 址 通常 是 静态 的 ， 如 将 其 写 在 配置 文件 中 的 服务 地 址 。 

在 现代 的 应 用 架构 中 ， 这 种 静态 配置 的 方式 存在 一 些 问 题 。 同 一 个 服务 不 同 实例 的 网 
络 地 址 往往 是 动态 分 配 的 ， 此 外 ， 实 例 的 扩展 、 故 障 和 升级 操作 也 会 带 来 服务 实例 的 网 络 
地 址 发 生 更 改 。 使 用 静态 方式 定义 服务 的 地 址 无 法 应 对 这 样 的 情况 。 因 此 ， 需 要 一 个 比 静 
态 配 置 服务 地 址 更 复杂 的 服务 发 现 机 制 。 


13.4.1 服务 注册 中 心 


服务 注册 中 心 是 服务 发 现 的 关键 部 分 ， 它 是 一 个 包含 了 服务 实例 网 络 位 置 的 数据 库 。 
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客户 端 可 以 缓存 从 服务 注册 中 心 获取 的 网 络 位 置 ， 但 是 该 信息 最 终 会 过 时 。 因 此 ， 服 务 注 
册 中 心 需要 是 高 可 用 的 且 能 让 客户 端 感知 到 最 新 的 服务 地 址 。 

常用 于 服务 注册 中 心 的 软件 有 etcd、Consul、Apache ZooKeeper 〈 以 下 简称 ZooKeeper) ， 这 
些 软件 都 采用 了 分 布 式 的 架构 ， 并 通过 某 种 一 致 性 算法 来 保证 数据 的 一 致 性 。 应 用 程序 可 
以 使 用 它们 提供 的 各 种 原 语 来 构建 复杂 的 分 布 式 系统 。 

etcd、Consul 和 ZooKeeper 都 有 适合 的 使 用 场景 ， 技 术 选 型 时 需要 结合 业务 系统 来 进 
行 考虑 。ZooKeeper 是 上 面 提 到 的 3 个 软件 中 诞生 时 间 最 早 的 一 个 ， 常 用 于 集中 式 维护 配 
置 和 命名 信息 ， 并 提供 分 布 式 同 步 服务 。 它 使 用 类 似 文件 系统 的 树 形 结构 存储 数据 。 下 面 
我 们 以 ZooKeeper 为 例 来 介绍 服务 的 注册 和 协作 过 程 。 

ZooKeeper 的 架构 通过 见 余 服务 支持 高 可 用 性 。 在 生产 环境 中 ，ZooKeeper 集群 的 服务 
器 数量 是 奇数 。 服务 器 中 有 领导 者 、 跟随 者 等 角色 。 客户 端 如 果 从 一 个 服务 器 中 得 不 到 应 答 ， 
则 可 以 请 求 男 外 的 服务 器 。ZooKeeper 的 工作 架构 如 图 13.12 所 示 。 


i 
| 服务 器 | | 本 | | ms 器 | 


| sm 站 | [客户 并 已 | 宏 六 并 | 
13.12 ”ZooKeeper 的 工作 架构 


为 了 简单 说 明 工 作 过 程 , 我 们 使 用 Docker 来 搭建 ZooKeeper 环 境 , 只 运行 一 个 服务 节点 。 
这 里 直接 使 用 Docker 运行 ZooKeeper， 在 命令 行 中 输入 下 面 的 指令 : 


# 拉 取 ZooKeeper 镜 像 

$ docker pull zookeeper 

# 运行 ZooKeeper 容 器 

$ docker run --name zookeeper --restart always -d -p 2181:2181 zookeeper 
# 创建 客户 端 c1 

$ docker exec -it zookeeper bash -c "zkCli.sh" 

# 创建 znode /services 

[zk: localhost:2181 (CONNECTED) 0] create /services 
Created /services 

[zk: Localhost:2181 (CONNECTED) 1] create /services/e_shoes 
# 创建 znode /services/e shoes 

Created /services/e shoes 
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上 面 的 命令 行 运行 docker run 命令 创建 了 一 个 客户 端 C1， 这 个 客户 端 创建 了 services 
目录 , 用 于 存储 服务 的 列表 在 services 目录 下 创建 的 e_shoes 目录 代表 我 们 将 要 使 用 的 应 用 。 
接 下 来 我 们 将 演示 两 个 不 同 的 进程 如 何 使 用 ZooKeeper 来 实现 数据 的 同步 。 

打开 另 一 个 命令 行 窗口 ， 使 用 docker run 命令 创建 另外 一 个 客户 端 C2， 并 监听 /services/ 
e_shoes 目录 ， 命 令 行 如 下 : 


# 创建 客户 端 C2 


$ docker exec -it zookeeper bash -c "zkCli.sh" 

[zk: localhost:2181 (CONNECTED) 0] 

# 查看 /services/e_shoes 下 的 znode 并 监听 

[zk: localhost:2181 (CONNECTED) 2] 1s -w /services/e_shoes 

[] 

接 下 来 将 命令 行 软件 切换 到 客户 端 Cl 的 窗口 ， 在 /services/e_shoes 下 创建 一 个 


Znode， 用 于 表示 服务 的 地 址 (形式 为 他 加 上 端口 ) ， 命 令 行 如 下 : 


# 客户 端 C1 
[zk: localhost:2181 (CONNECTED) 2] create /services/e shoes/192.168.0.1:7899 
Created /services/e shoes/192.168.0.1:7899 


客户 端 C2 之 前 监听 了 /services/e shoes 目录 ， 在 创建 ZNode 的 时 候 ， 其 会 收 到 
ZooKeeper 发 给 它 的 消息 ， 命 令 行 如 下 : 
# 客户 端 C2 


[zk: Localhost:2181 (CONNECTED) 3] 
WATCHER: : 


WatchedEvent state:SyncConnected type:NodeChildrenChanged path:/services/e shoes 


客户 端 C2 在 收 到 监听 事件 后 ， 可 以 做 一 些 对 应 的 操作 ， 如 更 新 本 地 的 服务 列表 。 如 果 
C2 想 在 /services/e_shoes 发 生 改 变 的 时 候 接 到 通知 ， 则 需要 重新 监听 /services/e_shoes。 


13.4.2 ”注册 服务 


要 想 服 务 发 现 中 心 能 够 正常 工作 ， 服 务实 例 必 须 能 在 服务 注册 中 心 注册 和 注销 。 通 常 
情况 下 注册 服务 实例 有 两 种 方式 。 一 种 方式 是 服务 实例 自我 注册 ， 即 自 注 册 模 式 ， 另 一 种 
方式 是 让 其 他 系统 组 件 来 管理 服务 的 注册 ， 即 第 三 方 注册 模式 。 

使 用 自 注册 模式 时 ， 服 务实 例 负 责 向 注册 中 心 注册 和 注销 自身 。 一 般 情况 下 ， 服 务实 
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例 需 要 发 送 心跳 请 求 来 防止 注册 过 期 。 这 种 方式 非常 简单 、 直 观 , 并 且 不 需要 其 他 系统 组 件 。 
不 过 这 种 模式 将 服务 实例 和 注册 中 心 进 行 了 耦合 ， 业 务必 须 在 使 用 的 每 种 编程 语言 和 框架 
中 都 实现 注册 代码 。 

使 用 第 三 方 注册 模式 时 ， 服 务实 例 不 负责 向 服务 注册 中 心 自我 注册 。 这 种 模式 需要 单 
独 的 系统 组 件 来 处 理 注册 ， 这 个 组 件 称 为 服务 注册 器 。 服 务 注册 器 通过 轮 询 部 署 环境 或 订 
阅 事件 来 跟踪 对 运行 实例 集群 的 更 改 。 当 服务 有 新 的 实例 启动 时 ， 它 会 将 服务 注册 到 注册 
中 心 。 服 务 注 册 器 还 需要 注销 已 终止 的 服务 实例 。 

第 三 方 注册 模式 能 让 服务 和 服务 注册 中 心 解 耦 ， 也 就 是 说 ， 不 需要 在 业务 选择 的 编程 
语言 和 框架 内 实现 服务 注册 逻辑 ， 因 此 这 种 模式 是 常用 的 注册 模式 。 下 面 我 们 来 演示 如 何 
围绕 ZooKeeper 实现 第 三 方 服务 注册 。 

用 于 演示 的 服务 注册 器 实现 方式 为 Python 脚本 。 该 Python 脚本 启动 服务 ， 服 务 以 
Docker 容器 的 形式 运行 ， 容 器 内 的 服务 监听 80 端口 ， 镜 像 名 为 e_shoes: latest。 该 脚本 在 
宿主 机 上 挑选 一 个 随机 的 可 用 端口 ， 通 过 Docker 桥接 网 络 ， 将 该 端口 映射 到 容器 内 的 80 
端口 。 最 后 将 服务 的 地 址 (IP 和 端口 ) 注册 到 ZooKeeper 的 /services/e_shoes 下 。 

注册 脚本 使 用 kazoo 库 来 与 ZooKeeper 进行 交互 。 示 例 代码 如 下 : 


# coding=utf-8 
import os 
import socket 
from subprocess import PIPE, Popen 
from kazoo.client import KazooClient 
def get free port(): 
# 获取 服务 器 上 可 用 的 端口 
tcp = socket.socket (Socket.AF_INET， socket.SOCK _ STREAM) 
tep bindlt .ONY 
addr, port = tcp.getsockname() 
tcp.close() 
return port 
def get public ip(): 
# 获取 服务 网 卡 IP, 需要 根据 实际 情况 修改 
Teturn "192.168-1.1" 
free port = get free port() 
public ip = get public ip() 
# 创建 容器 , 获取 容器 ID 
Pipe = Popen(['docker'， 'create', '-p', '%5s:80' % free port, 'e_ 
shoes:latest'], stdout=PIPE) 
if pipe.returncode == 0: 
container id = pipe.communicate() [0] 
SlLSe, 
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exit (1) 
# 创建 子 进程 
pid = os.fork() 
if pid == 0: 
# 子 进程 在 连接 模式 下 启动 容器 
exit (os.system("docker start -a %s" % container id)) 
zk = KazooClient (hosts="127.0.0.1:2181") 
service znode = '/services/e shes/%s:%s' % (public ip, free port) 
# 冒 烟 测试 方法 需要 另外 按照 需求 实现 
if pass_smoke test (container id) : 
# 如 果 容器 正常 运行 , 则 将 服务 注册 到 zk 上 
zk.start() 
zk.ensure path('/services/e shoes') 
zk.create (service znode, ephemeral=True) 
# 父 进程 等 待 子 进程 运行 终止 后 注销 服务 
finished = os.waitpid(0, 0) 
zk.delete (service znode) 
zk.stop() 


上 面 的 脚本 先 获取 服务 器 上 可 用 的 端口 和 提供 网 络 服务 的 本 机 人 P 地 址 ， 并 创建 一 个 
Docker 容器 ， 获 取 容 器 的 ID; 接着 创建 一 个 子 进程 ， 子 进程 在 连接 模式 下 运行 刚 创建 的 
容器 。 父 进程 通过 容器 ID， 对 容器 进行 冒 烟 测试 ， 如 果 测 试 通过 ， 则 将 服务 的 地 址 注册 到 
ZooKeeper 上 。 

父 进程 调用 waitpid 方法 监听 子 进程 的 状态 。 当 容器 停止 运行 时 ， 子 进程 终止 ， 父 进程 
获取 子 进程 退出 码 后 注销 、 注 册 在 ZooKeeper 上 的 服务 。 

在 容器 的 运行 时 间 内 ， 父 进程 会 一 直 阻 塞 。 在 服务 器 出 现 故 障 时 ， 父 进程 与 ZooKeeper 
之 间 的 连接 断 开 。 由 于 父 进程 创建 的 ZNode 是 临时 的 ， 在 父 进程 与 ZooKeeper 的 连接 超过 
一 段 时 间 后 ，ZooKeeper 会 自动 删除 该 临时 的 ZNode， 即 自动 注销 了 服务 。 

上 面 的 脚本 仅 用 于 演示 使 用 ZooKeeper 进行 服务 注册 的 流程 ， 不 应 该 直接 在 生产 环 
境 中 运行 ， 使 用 时 需要 做 一 定 的 修改 。 流行 的 开源 容器 编排 系统 (如 Apache Mesos、 
Kubemetes) 对 服务 的 注册 都 有 很 好 的 实现 ， 读 者 可 以 根据 需要 选用 这 些 成 熟 的 容器 编排 
系统 。 


13.4.3 ”发 现 服务 


服务 发 现 模式 主要 有 两 种 : 客户 端 发 现 模式 和 服务 器 发 现 模式 。 
使 用 客户 端 发 现 模式 时 ， 客 户 端 负责 确认 可 用 服务 实例 的 网 络 位 置 及 服务 实例 间 的 负 
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载 均衡 。 一 般 的 工作 方式 如 下 : 客户 端 查询 注册 中 心 ， 获 取 可 用 的 服务 实例 列表 ， 然 后 使 
用 负载 均衡 算法 选择 一 个 可 用 的 服务 实例 并 发 出 请 求 。 

客户 端 发 现 模式 比较 简单 ， 易 于 理解 。 不 过 这 种 方式 将 客户 端 和 服务 注册 中 心 耦合 在 
一 起 。 使 用 这 种 模式 需要 在 业务 选择 的 编程 语言 和 框架 内 实现 服务 发 现 逻 辑 。 

使 用 服务 器 发 现 模 式 可 以 避免 上 面 提 到 的 耦合 问题 。 在 这 种 模式 下 ， 客 户 端 通过 负载 
均衡 器 向 服务 发 出 请 求 。 负载 均衡 器 查询 可 用 的 服务 列表 , 并 将 请 求 路 由 到 可 用 的 服务 实例 。 

下 面 我 们 来 演示 围绕 ZooKeeper 实现 服务 端 发 现 模式 。 注 册 的 服务 数据 结构 和 13.4.2 
节 保持 一 致 。 演 示 的 脚本 借助 Nginx 的 反 向 代理 功能 。 单 独 运行 脚本 ， 在 服务 实例 列表 发 
生 改 变 的 时 候 ， 更 新 Nginx 的 配置 文件 ， 然 后 重新 加 载 ， 从 而 达到 服务 端 发 现 的 效果 。 监 
听 服 务 列表 的 脚本 代码 如 下 : 


# coding=utf-8 
from kazoo.client import KazooClient 
import time 
import jinja2 
import os 
# Nginx 配 置 模板 
nginx template = '''upstream app { 
least_ conn; 
{% if items|length > 0 %} 
{% for i in items %}{{i}}{% endfor %} 
{$$ else %}server 127.0.0.1:65535; 
{% endif %} 
上 
server { 
listen 80 default server; 
Tocation 7 { 
proxy pass http://app; 
Proxy_set header Xx-Forwarded-For S$proxy add x forwarded for; 
proxy_set header Host $host; 
proxy_set header X-Real-IP $remote addr; 
} 
1; 
1 
template = jinja2.Template (nginx template) 
zk = KazooClient (hosts='127.0.0.1:2181') 
zw Esstartty 
# 监听 服务 的 变化 
@zk.ChildrenWatch("/services/e_shoes") 
def on services_change (children): 


# 当 服 务实 例 列表 发 生变 化 时 , 覆盖 Nginx 的 应 用 配置 文件 
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with open('/etc/nginx/site enable/e shoes.conf', 'w') as app conf: 
app_conf .write (template.render (items=children)) 
# 重新 加 载 Nginx 配 置 
os.system("service nginx reload") 
# 让 监听 脚本 一 直 运行 
while True: 
time.sleep (1) 


上 面 的 代码 可 以 实现 服务 动态 发 现 的 效果 ， 不 过 每 次 都 覆盖 配置 文件 的 做 法 不 是 特别 


理想 ， 一 个 更 好 的 方式 是 通过 API 调用 来 改变 Nginx 的 upstream 配置 。Nginx 的 ngx_http_ 
dyups_module 模块 可 以 帮助 我 们 实现 这 一 点 。 


使 用 这 个 模块 需要 读者 了 解 如 何在 Linux 下 使 用 源 代码 编译 和 安装 软件 ， 同 时 知道 如 


何 使 用 git 工具 。 示 例 代码 如 下 : 


git clone git://github.com/yzprofile/ngx http dyups module.git 

git clone git@github.com:openresty/lua-nginx-module.git 

拉 取 Nginx 源 码 、 依 赖 等 源码 

wget https://ftp.pcre.org/pub/pcre/pcre-8.40.tar.gz && tar xzvf pcre- 
.40.tar.gz 

$ wget http://www.zlib.net/zlib-1.2.11.tar.gz && tar xzvf zlib-1.2.11. 
tar. gz 

$ wget https://www.openssl.org/source/openssl-1.1.0f.tar.gz && tar xzvf 
openssl-1.1.0f.tar.gz 

# 编译 Nginx 

$ cd ~/nginx-1.13.1 

$ ./configure --with-openssl=../openssl-1.1.0f --with-pcre=../pcre-8.40 
--add-module=../lua-nginx-module --add-module=../ngx http dyups module 
$ make && make install 


安装 完成 后 ，Nginx 的 应 用 配置 示例 如 下 : 


加 间 妨 切 


# upstream 配 置 
upstream e shoes{ 
server 127.0.0.1:65535; 


请 
# 应 用 服务 配置 
server { 
listen 8080; 
location / { 
# 这 里 必须 使 用 Nginx 变 量 进行 替换 
set $ups e shoes; 
proxy pass http://$ups; 
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# 管理 服务 配置 
server { 
listen 8081; 
Tocation /A 
# 处 理 管理 配置 的 请 求 
dyups interface; 


E 


配置 完 Nginx 并 启动 后 ， 需 要 更 新 上 游 服务 列表 时 ， 可 以 采用 dyups 提供 的 接口 。 示 
例 代码 如 下 : 


# coding=utf-8 
from kazoo.client import KazooClient 
import time 
import requests 
zk = KazooClient (hosts='127.0.0.1:2181') 
zk.start () 
# 监听 服务 的 变化 
Q@zk.ChildrenWatch("/services/e_ shoes") 
def on services change(children): 
# 当 服 务实 例 列表 发 生变 化 时 , 调用 dyups 接 口 修改 服务 列表 信息 
request_ payload = ''.join(["server %s;" sg child for child in children]) 
requests.post ('http://127.0.0.1:8081/upstream/e_shoes', data=request payload) 
# 让 监听 脚本 一 直 运 行 
while True: 
time.sleep (1) 


流行 的 开源 容器 编排 系统 (如 Kubermetes 和 Marathon) 会 在 集群 中 的 每 个 主机 上 运行 
代理 ， 代 理 扮演 着 服务 端 发 现 负载 均衡 器 的 角色 ， 客 户 端 通过 向 代理 发 送 请 求 访问 服务 。 
在 生产 环境 中 ， 读 者 可 以 根据 需要 选用 这 些 成 熟 的 容器 编排 系统 。 


现代 高 流量 网 站 必须 面 对 数 十 万 甚至 数 百 万 来 自用 户 的 并 发 请 求 ， 并 以 快速 、 可 靠 的 
方式 返回 正确 的 文本 、 图 像 、 视 频 或 应 用 程序 数据 。 要 想 处 理 这 样 量 级 的 请 求 ， 通 常 的 实 
践 是 增加 服务 器 的 数量 。 

负载 均衡 器 就 像 服务 器 前 面 的 “交通 警察 ”一 样 ， 将 流量 以 合理 的 方式 导向 各 个 服务 
器 。 合理 利用 负载 均衡 器 能 够 有 效 提升 服务 的 响应 速度 、 服 务 器 的 利用 率 和 服务 的 可 用 性 ， 
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并 避免 单个 服务 器 出 现 过 载 的 情况 。 

本 章 首先 介绍 了 常用 的 负载 均衡 调度 算法 ， 不 同 的 负载 均衡 算法 有 不 同 的 优点 ， 应 该 
根据 实际 的 需求 进行 选择 。 

网 络 高 可 用 是 负载 均衡 器 能 够 正常 使 用 的 基础 。 本 章 接 下 来 介绍 了 网 卡 绑 定 技术 和 虚 
拟 路 由 宛 余 协议 ， 它 们 是 提升 网 络 可 用 性 的 常见 方法 。 

根据 工作 的 网 络 层级 ， 可 以 将 负载 均衡 器 分 为 4 层 负载 均衡 器 和 7 层 负载 均衡 器 。 本 
章 分 别 以 LVS 和 Nginx 为 例 介绍 了 这 两 种 负载 均衡 器 的 差异 和 各 自 的 工作 方式 。 

随 着 微服 务 架 构 的 流行 ， 需 要 复杂 的 服务 发 现 机 制 来 支持 负载 均衡 器 的 调度 。 本 章 围 
绕 ZooKeeper 介绍 了 注册 服务 和 发 现 服务 的 流程 。 常 用 的 服务 注册 中 心软 件 还 有 Consul、 
etcd 等 ， 应 该 根据 实际 情况 进行 相应 的 技术 选 型 。 
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练习 一 : 本 章 介绍 了 哪 几 种 负载 均衡 调度 算法 ? 
练习 二 : LVS 有 哪 几 种 工作 模式 ? 
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软件 开发 人 员 的 很 大 一 部 分 工作 是 查看 监控 、 排 除 故 障 和 调试 功能 ， 而 记录 日 志 能 使 这 个 过 程 
变 得 容易 和 顺畅 。 清 晰 、 有 序 的 日 志 可 以 帮助 开发 人 员 理解 代码 实际 执行 的 操作 。 日 志 可 以 分 为 不 
同 的 级 别 ， 如 调试 级 别 、 警 告 级 别 和 错误 级 别 ， 对 日 志 进行 分 级 能 帮助 开发 人 员 快 速 定 位 问题 。 

除了 方便 编写 代码 外 ， 日 志 还 可 以 记录 用 户 的 行为 ， 用 于 业务 的 审计 和 防范 安全 风险 。Python 
提供 了 非常 方便 的 工具 用 于 记录 日 志 ，Django 使 用 Python 的 内 置 日 志 模 块 来 执行 系统 日 志 的 记录 。 

本 章 主要 涉及 的 知识 点 : 

@ Python 的 日 志 模块 : 学 习 Python 的 日 志 模块 。 

@ Dijango 的 日 志 配置 : 学 习 如 何在 Django 框架 中 配置 和 记录 日 志 。 

@ 日志 的 收集 和 使 用 : 学 习 使 用 ELK 技术 栈 存储 和 使 用 日 志 。 


日 志 用 于 记录 软件 运行 时 发 生 的 事件 。 软 件 开发 者 将 日 志 记录 添加 到 其 代码 中 ， 用 
以 指示 已 发 生 的 某 些 事件 。 事 件 是 描述 性 的 消息 ， 消 息 可 以 包含 可 变 的 数据 ， 即 每 次 事件 
发 生 时 记录 的 不 同 数据 。 对 于 软件 维护 者 来 说 ， 不 同事 件 具有 不 同 的 重要 性 。Python 的 
logging 模块 用 于 日 志 的 记录 。 


14.1.1 日志 模块 组 件 


Python 的 logging 模块 由 4 部 分 组 成 ， 分 别 是 记录 器 〈logger) 、 处 理 器 (handler) 、 过 
滤器 (filter) 和 格式 器 (formatter) 。 

记录 器 是 Python 日 志 系统 的 入 口 ， 用 于 通过 调用 日 志 器 的 接口 将 消息 传 入 日 志 系统 进 
行 处 理 。 每 个 记录 器 都 有 日 志 级 别 ， 日 志 级 别 描述 了 消息 的 严重 性 。Python 定义 了 5 个 日 
志 级 别 ， 分 别 如 下 。 

@ DEBUG 级 别 : 主要 用 于 调试 目的 。 

@ INFO 级别 : 用 于 记录 一 般 性 的 系统 信息 。 
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@ WARNING 级 别 : 用 于 记录 不 怎么 重要 的 问题 。 

@ ERROR 级 别 : 用 于 记录 重要 的 问题 。 

@ _ CRITICAL 级 别 : 用 于 记录 严重 的 问题 。 

在 Python 的 日 志 模 块 中 ， 记 录 器 写 入 的 每 条 消息 都 是 一 个 LogRecord 对 象 。 每 个 
LogRecord 对 象 都 包含 一 个 日 志 级 别 ， 用 于 标示 日 志 的 严重 性 。 除 此 之 外 ，LogRecord 对 象 
还 包含 日 志 记录 的 其 他 元 数据 ， 如 记录 日 志 的 文件 、 记 录 的 进程 等 。 

当 调 用 记录 器 的 接口 记录 日 志 时 ， LogRecord 对 象 的 日 志 级 别 和 记录 器 的 日 志 级 别 会 
做 一 个 比较 。 如 果 记 录 的 日 志 级 别 达到 了 记录 器 本 身 的 日 志 级 别 ， 则 记录 会 被 进一步 处 理 。 
一 旦 记录 器 确定 消息 需要 处 理 ， 就 会 将 消息 传递 给 处 理 器 。 

处 理 器 决定 以 何 种 方式 写 入 日 志 , 它 描述 了 特定 的 日 志 记录 行为 ， 如 将 消息 写 入 屏幕 、 
文件 或 者 网 络 套 接 字 。 

和 记录 器 一 样 ， 处 理 器 也 有 日 志 级 别 。 如 果 LogRecord 对 象 的 日 志 级 别 未 达到 或 超过 
处 理 器 的 级 别 ， 则 处 理 器 将 忽略 该 消息 。 

一 个 记录 器 可 以 有 多 个 处 理 器 ， 每 个 处 理 器 可 以 有 不 同 的 日 志 级 别 。 这 种 方式 允 
许 根据 消息 的 重要 性 提供 不 同形 式 的 通知 。 例 如 ， 为 记录 器 设置 两 个 处 理 器 ;一 个 处 理 
器 将 ERROR 和 CRITICAL 的 消息 通过 电话 告知 给 负责 人 ; 另 一 个 处 理 器 将 ERROR 和 
CRITICAL 的 消息 记录 到 文件 中 。 

过 滤器 用 于 控制 是 否 将 LogRecord 对 象 从 记录 器 传递 给 处 理 器 。 默 认 情 况 下 ， 满 足 日 
志 级 别 要 求 的 任意 LogRecord 对 象 都 会 被 传递 给 处 理 器 ， 安 装 过 滤器 可 以 为 这 个 过 程 添加 
另外 的 限制 ， 如 某 个 过 滤器 只 允许 将 包含 了 特定 文本 的 消息 传递 给 处 理 器 。 

过 滤器 可 以 在 日 志 被 处 理 前 修改 日 志 。 例 如 ， 在 满足 某 些 条 件 时 ， 可 以 将 ERROR 日 
志 记 录 降 级 到 WARNING 级 别 。 

过 滤器 既 可 以 安装 在 记录 器 上 ， 也 可 以 安装 在 处 理 器 上 ， 还 可 以 传 入 多 个 过 滤器 执行 
多 个 过 滤 操 作 。 

日 志 记录 最 终 需 要 以 文本 形式 呈现 ， 格 式 器 用 于 描述 文本 的 确切 格式 。 每 个 记录 器 实 
例 都 有 一 个 名 称 ， 通 过 名 称 可 以 定位 到 具体 的 记录 器 实例 。 按 照 惯例 ， 记 录 器 的 名 称 通常 
是 包含 记录 器 的 Python 模块 的 名 称 ， 这 人 允许 基于 每 个 模块 过 滤 和 处 理 日 志 调 用 记录 。 

如 果 不 想 用 这 种 方法 来 组 织 日 志 消息 ， 则 可 以 提供 以 点 分 隔 的 名 称 来 标识 记录 器 ， 如 
e_shoes.models product。 记 录 器 中 的 “.” 定 义 了 记录 器 的 层次 结构 。 例 如 ，e_shoes models 
是 e_shoes.models.product 的 父 记录 器 ，e_shoes 是 e_shoes models 的 父 记录 器 。 这 样 的 结构 
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是 树 形 的 ， 我 们 称 之 为 记录 器 树 。 

记录 器 的 层级 是 很 重要 的 ， 因 为 记录 器 可 以 将 它们 的 日 志 调用 记录 传播 给 它 的 父 记录 
器 。 通 过 这 样 的 方式 ， 可 以 在 记录 器 树 的 根 记录 器 中 定义 一 组 处 理 器 ， 并 捕获 记录 器 子 树 
中 的 所 有 日 志 调用 记录 。 例 如 ， 定 义 在 e_shoes 记录 器 能 捕获 e_shoes models product 记录 
器 和 e_shoes.models 记录 器 的 日 志 调 用 记录 。 

Logging 模块 的 工作 方式 如 图 14.1 所 示 。 


记录 器 是 否 
允许 这 个 级 别 的 
调用 ? 


是 
创建 LogRecord 对 象 


否 拒绝 记录 ? 


处 理 器 是 
否 拒 绝 LogRecord 
级 别 ? 


里 
将 消息 传递 给 处 理 器 “| 一下- 一- 


是 父 记录 器 否 
是 否 存在 ? 


图 14.1 Logging 模块 的 工作 方式 


14.1.2 ”使 用 日 志 模 块 


记录 器 是 普通 的 Python 对 象 ， 它 主要 有 以 下 3 个 作用 。 
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@ 提供 接口 让 应 用 程序 调用 ， 在 程序 运行 时 记录 消息 。 

@ 根据 日 志 的 级 别 或 过 滤器 的 规则 确定 哪些 消息 需要 处 理 。 
@ 将 消息 传递 给 处 理 器 。 
记录 器 提供 不 同 的 接口 来 输出 不 同 级 别 的 日 志 。loggerdebug( ) 用 于 记录 DEBUG 级 别 


的 日 志 ; loggerinfo( ) 用 于 记录 INFO 级 别 的 日 志 ; logger.waming( ) 用 于 记录 WARNING 


级 别 的 日 志 ; loggererror( ) 用 于 记录 ERROR 级 别 的 日 志 ; logger.critical( ) 用 于 记录 
CRITICAL 级 别 的 日 志 。 


在 记录 消息 的 过 程 中 可 以 指定 消息 的 格式 ， 可 以 将 消息 输出 到 不 同 的 地 方 。 例 如 ， 将 


某 些 消息 输出 到 标准 输出 ， 将 某 些 消息 写 入 日 志文 件 。 示 例 用 法 如 下 : 


>>> import 


logging 


# 获取 记录 器 对 象 
>>> logger = logging.getLogger('simple example') 
# 配置 记录 器 的 日 志 级 别 为 DEBUG 


>>> logger. 
# 创建 处 理 器 ， 


setLevel (logging .DEBUG) 
将 日 志 写 到 文件 中 ,设置 级 别 为 DEBUG 


>>> file handler = logging.FileHandler('spam.1o0g') 
>>> file handler.setLevel (logging .DEBUG) 
# create console handler with a higher log level 


# 创建 处 理 器 ,将 日 志 写 入 标准 输出 , 设置 级 别 为 DEBUG 


>>> console handler = logging.streamHandler () 
>>> console handler.setLevel (lo0ogging .ERROR) 
# 创建 格式 器 ,并 将 格式 器 加 到 刚才 创建 的 两 个 处 理 器 上 


>>> formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s — 


$$ (message)s 


a 


>>> console handler.setFormatter (formatter) 
>>> file handler.setFormatter (formatter) 


# 将 处 理 器 加 到 记录 器 中 


>>> logger. 


addHandler (file handler) 


# 调用 记录 器 接口 记录 日 志 


>>> logger. 
>>> logger. 
>>> logger. 
>>> logger. 


2019=06=27 


debug('debug message') 
info('info message') 
warn('warn message') 
error('error message') 
21:19:08,369 - simple example 


logger.critical('critical message') 


>>> logger. 


2019-06-27 


critical('critical message') 
21:19:13,714 - simple example 


# spam.1og 文 件 中 的 内 容 为 


2019=06=27 
20L9=06=27 
2013-06=27 


21:18:54,889 - simple example 
21:18:59;737 = simple example 
21:19:04,177 - simple example 


— ERROR - error message 


— CRITICAL - critical message 


— DEBUG - debug message 
— INFO - info message 
— WARNING - warn message 
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2019-06-27 21:19:08,369 - simple example - ERROR - error message 
2019-06-27 21:19:13,714 - simple example - CRITICAL - critical message 


在 同一 个 进程 中 ， 不 同 的 模块 调用 logging.getLogger 方法 ， 如 果 传 入 的 名 字 一 样 ， 那 
么 将 返回 同一 个 记录 器 对 象 。 此 外 ， 应 用 程序 可 以 在 一 个 模块 中 定义 和 配置 父 记录 器 ， 在 
另 一 个 模块 中 创建 子 记录 器 ， 在 没有 修改 配置 的 情况 下 ， 子 记录 器 的 所 有 调用 记录 将 传递 
给 父 记录 器 。 

志 记 录 是 线程 安全 的 ， 单 进程 中 的 多 线程 可 以 将 日 志 记 录 到 同一 个 文件 。 不 过 
logging 模块 并 不 支持 多 个 进程 将 日 志 记录 到 同一 个 文件 中 ， 因 为 Python 没有 提供 标准 的 方 
法 来 序列 化 多 进程 对 单个 文件 的 访问 。 

随 着 应 用 程序 的 长 时 间 运 行 ， 单 个 日 志文 件 会 越 来 越 大 ， 这 对 于 日 志文 件 的 管理 和 使 
用 来 说 并 不 是 非常 方便 。 我 们 希望 当日 志文 件 增 大 到 一 定 程度 时 ， 应 用 程序 将 日 志 写 入 另 
外 的 文件 中 。 同 时 ， 根 据 磁 盘 大 小 限制 和 实际 情况 ， 一 般 只 需要 保留 部 分 日 志 即 可 。 可 以 
使 用 RotatingFileHandler 来 帮助 用 户 管理 日 志文 件 ， 示 例如 下 : 


import logging 

from logging.handlers import TimedRotatingFileHandler 

# 日 志文 件 

LOG FILENAME = 'logging rotatingfile example.out' 

my_logger = logging.getLogger('MyLogger') 

# 在 午夜 时 更 换 日 志文 件 , 保留 过 去 5 天 的 日 志 

file rotate handler = TimedRotatingFileHandler (LOG FILENAME, when="midnight", 
backupCount=5) 

my_logger.addHandler (handler) 


有 时 候 ， 我 们 希望 在 某 些 操 作 前 更 改 日 志 记 录 的 配置 ， 并 在 操作 完成 后 将 日 志 配置 改 
回来 ， 如 在 某 个 操作 范围 内 临时 修改 日 志 的 级 别 。 可 以 通过 实现 一 个 日 志 配置 的 上 下 文 管 
理 器 来 做 到 这 一 点 。 示 例 代码 如 下 : 


import logging 
import sys 
# 日 志 配 置 上 下 文 管理 器 
class LoggingContext (object): 
def init (self, logger, level=None, handler=None, close=True): 
# 传 入 记录 器 ,临时 的 日 志 级 别 
self.logger = logger 
self.level = level 
self.handler = handler 
self.close = close 
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def enter (self) 
# 在 调用 时 设置 记录 器 的 日 志 级 别 
if self.level is not None: 
Sezfscldsieve= "SelfeLTogger.level 
self.logger.setLevel (self.1level) 
if self.handler: 
self.logger.addHandler (self .handler) 
de Pozit {selE et ev ED 
# 在 结束 时 将 记录 器 的 日 志 级 别 改 回来 
if self.level is not None: 
Self.logger.setLevel (self.old level) 
if self.handler: 
self.logger.removeHandler (self.handler) 
if self.handler and self.close: 
self.handler.close() 
# 调用 示例 设置 记录 器 级 别 是 INFO 
logger = logging.getLogger('foo') 
logger.setLevel (logging.INFO) 
# 临时 将 级 别 改 为 DEBUG 
with LoggingContext (logger, level=logging .DEBUG): 
logger.debug('3. This should appear once on stderr.') 


14.1.3 ”配置 日 志 模 块 


在 14.1.2 节 所 示 的 例子 中 , 应 用 代码 负责 设置 记录 器 的 级 别 、 添加 处 理 器 。 理想 情况 下 ， 
最 好 让 配置 和 应 用 代码 分 离 。Python 的 logging 库 提供 了 几 种 配置 日 志 的 方式 ， 通 常 的 配置 
方式 是 用 字典 类 型 的 数据 描述 日 志 记录 所 需 的 记录 器 、 处 理 器 、 过 滤器 和 格式 器 ， 然 后 将 
数据 传 入 dictConfig( ) 的 方法 。 

Django 提供 了 一 个 非常 好 的 配置 示例 ， 代 码 如 下 : 


import logging 
LOGGING = { 
'version': 1, 
# 排除 之 前 配置 的 干扰 
'disable existing loggers': True, 
# 格式 器 配置 
'formatters': { 
# 详细 的 日 志 
'verbose': { 
'format': '%(levelname)s s(asctime)s %(module)s %(process)d 
S(thread)d % (message)s"' 


La 
二 简要 的 日 志 
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'simple': { 
'format': '$(levelname)s %(message)s' 
} 
}, 
# 处 理 器 配置 


"handlers': { 
# DEBUG 或 以 上 级 别 日 志 输 出 到 输出 流 中 
"CONSOLS 
'level':'DEBUG', 
'class':'logging.streamHandler', 
'formatter': 'simple' 


}, 

# ERROR 或 以 上 级 别 发 送 给 管理 员 邮 箱 

"mail admins': { 
'level': 'ERROR', 
'class': 'django.utils.1og.AdminEmailHandler', 
'filters': ['special'] 

} 


}, 
# 记录 器 配置 
"loggers': { 
# django 记 录 器 
'django': { 
'handlers':['console'], 
'propagate': True, 
"Tevel"s"INEO, 
}, 
# django.request 记 录 器 
'django.request': { 
'handlers': ['mail admins'], 
'level': 'ERROR', 
'propagate': False, 
} 
} 


i 
# 调用 dictconfig 进 行 配置 
logging.contfig.dictConfig (LOGGING) 


[14.2 有 Django 日 志 工 具 


Django 提供 了 一 些 日 志 工 具 用 于 满足 Web 应 用 关于 记录 日 志 的 一 些 常见 需求 。 这 些 工 
具 包 括 记录 器 实例 、 处 理 器 实例 和 过 滤器 实例 。Django 自 带 了 几 个 有 用 的 记录 器 。 
@ django 记录 器 : 这 是 Django 记录 器 树 的 根 记录 器 。 
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@ django.request 记录 器 : 该 记录 器 记录 所 有 请 求 处 理 的 日 志 。5XX 的 响应 会 作为 
ERROR 级 别 的 日 志 记 录 ; 4XX 的 响应 会 作为 WARNING 级 别 的 日 志 记 录 。 该 记录 
器 记录 的 日 志 会 包含 HITP 状态 码 和 request 对 象 。 

@ django.db.backends 记录 器 : 该 记录 器 记录 代码 与 数据 库 交互 相关 的 消息 。 出 于 性 能 
考虑 ， 只 有 在 settings.DEBUG 设置 为 True 的 时 候 ， 该 记录 器 才 会 开启 。 该 记录 器 
记录 的 日 志 会 包含 执行 SQL 的 时 间 、SQL 语句 和 参数 。 

除了 Python 自 带 的 日 志 处 理 器 外 ，Dijango 还 提供 了 AdminEmailHandler 处 理 器 。 这 个 

处 理 器 每 收 到 一 条 消息 ， 就 向 站 点 管理 员 发 送 电子 邮件 。 如 果 日 志 记录 包含 request 属性 ， 
则 请 求 的 完整 信息 将 会 包含 在 电子 邮件 中 。 如 果 日 志 包 含 了 程序 堆栈 跟踪 消息 ， 则 电子 邮 
件 也 会 包含 这 部 分 消息 。 

要 使 用 这 个 处 理 器 ， 需 要 在 配置 文件 中 配置 一 下 ， 配 置 中 如 果 将 include_ html 设置 为 

Trme， 则 电子 邮件 中 会 附带 一 个 HTML 页 面 ， 页 面包 含 了 带 有 变量 信息 的 完整 错误 栈 和 
Django 配置 信息 。 配 置 示例 如 下 : 


'handlers': { 
'mail admins': { 
'level': 'ERROR', 
'class': "django.utils.1og.RdminEmailHandler'， 
'include html': True, 
: 

}， 

Diango 提供 了 两 个 日 志 过 滤器 一 一 CallbackFilter 和 RequireDebugFalse。CallbackFilter 
接受 回调 函数 ， 并 为 通过 过 滤器 的 每 个 LogRecord 对 象 调用 这 个 函数 ， 然 后 回调 函数 返回 
False， 不 继续 处 理 该 记录 。 在 settings.DEBUG 设置 为 False 时 ，RequireDebugFalse 才 会 通 
过 LogRecord 对 象 。 


现代 网 站 和 服务 通常 是 分 层 结构 ， 日 志 分 散在 多 个 服务 器 ， 甚 至 多 个 数据 中 心 。 在 这 
种 情况 下 ， 查 看 单个 日 志 会 很 麻烦 。 开 发 者 不 仅 需要 花费 很 长 时 间 来 搜索 正确 的 文件 ， 而 
且 需 要 更 长 的 时 间 来 关联 多 个 日 志文 件 以 定位 问题 。 如 果 日 志文 件 被 管理 员 清 理 ， 则 问题 
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就 很 难 定位 。 

因此 ， 较 好 的 实践 是 将 日 志 集 中 起 来 管理 。 集 中 管理 日 志 能 够 加 快 日 志 搜 索 速 度 ， 从 
而 有 助 于 更 快 地 解决 生产 问题 ; 所 有 日 志 都 在 一 个 地 方 ， 不 用 猜测 错误 日 志 在 哪 个 服务 
器 上 ， 定 位 问题 很 方便 。 

Elastic 技术 栈 是 完整 的 日 志 分 析 解 决 方案 ， 可 帮助 我 们 深入 搜索 、 分 析 和 可 视 化 从 不 
同 机 器 生成 的 日 志 。 


14.3.1 Elastic 技术 栈 


现代 的 日 志 管理 和 分 析 解 决 方案 需要 包括 以 下 关键 能 力 。 

@ 聚合 能 力 : 从 多 个 数据 源 收集 和 发 送 日 志 的 能 力 。 

@ 处 理 能 力 : 将 日 志 消息 转换 为 有 意义 的 数据 以 便 分 析 的 能 力 。 

@ 存储 能 力 : 能 够 存储 长 时 间 段 数据 的 能 力 。 

@ 分 析 能 力 : 通过 查询 数据 并 在 其 上 创建 可 视 化 仪表 盘 来 分 析 数 据 的 能 力 。 

Elastic 技术 栈 为 日 志 管理 提供 了 完整 的 解决 方案 。Elastic 技术 栈 主要 由 Elasticsearch、 
Logstash、Kibana 和 多 个 Beats 组 成 。Elasticsearch 是 一 个 基于 Apache Lucence 的 全 文 搜索 
和 分 析 引 擎 ， 是 技术 栈 的 核心 部 分 。Logstash 用 于 聚合 日 志 ， 它 从 各 种 输入 源 收集 数据 ， 
对 数据 进行 转换 和 增强 后 ， 将 数据 发 送 到 输出 目标 。Kibana 在 Elasticsearch 之 上 运行 ， 为 
用 户 分 析 数 据 提供 可 视 化 界面 。Beats 一 般 安装 在 主机 上 ， 用 于 收集 不 同类 型 的 数据 。 

Beats 和 Logstash 负责 收集 和 处 理 数 据 ，Elasticsearch 用 于 索引 和 存储 数据 ，Kibana 提 
供 查询 数据 和 可 视 化 数据 的 用 户 界面 。 通 用 的 Elastic 技术 栈 如 图 14.2 所 示 。 


Kibana 
提供 用 户 操作 的 可 视 化 界面 
Elasticsearch 
存储 、 索 引 和 分 析 数 据 
Logstash B 
聚合 和 处 理 年 
数据 收集 数据 


图 14.2 通用 的 Elastic 技术 栈 


MEV rs 


在 数据 量 更 大 的 场景 下 ， 为 了 应 对 复杂 的 生产 环境 ， 往 往 还 需要 添加 其 他 组 件 来 提升 
系统 的 可 用 性 和 安全 性 。 比 较 常 见 的 做 法 是 在 处 理 日 志 前 增加 缓存 ， 防 止 Logstash 服务 出 
现 问 题 时 出 现 丢 失 日 志 的 情况 ， 另 外 ，Kibana 默认 没有 提供 访问 控制 等 安全 选项 ， 可 选 的 
方案 是 在 Kibana 服务 前 面 增加 一 个 Nginx 服务 ， 进 行 访问 控制 。 扩 展 Elastic 技术 栈 的 工作 
流程 如 图 14.3 所 示 。 


站 
衬 


Be EE ra Nginx Kibana 
ye 本 
收 于 占据 a mb 和 处理 | 安全 和 和 接 入 上 对 可 视 化 界 
和 报表 
Rabbit 
MQ 


14.3 扩展 Elastic 技术 栈 的 工作 流程 


下 面 我 们 来 演示 如 何 安装 和 使 用 Elastic 技术 栈 。 演 示 使 用 装 有 Ubuntu 16.04 系统 的 服 
务 器 ， 服 务 器 他 为 10.0.2.15。 登 录 服 务 器 ， 在 命令 行 中 输入 下 面 的 命令 : 


# 安装 apt-transport-https 

$ sudo apt-get update 

$ sudo apt-get install apt-transport-https 

# 导入 Elastic 的 签名 ,用 于 验证 安装 的 软件 

$ wget -qo - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo apt-key add - 
OK 

# 加 入 软件 库 

$ echo "deb https://artifacts.elastic.co/packages/7.x/apt stable main" 
| sudo tee -a /etc/apt/sources.list.d/elastic-7.x.listdeb https:// 
artifacts.elastic.co/packages/7.x/apt stable main 

# 安装 Elasticsearch 

$ sudo apt-get update 

$ sudo apt-get install elasticsearch 

# 配置 Elasticsearch 服 务 

$ sudo vim /etc/elasticsearch/elasticsearch.yml 

network.host: "localhost" 

http.port:9200 

cluster.initial master nodes:10.0.2.15 

# 启动 Elasticsearch 服 务 


$ sudo service elasticsearch start 
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# 确认 服务 在 运行 
$ curl http://localhost:9200 
t 
"name" : "ubuntu-xenial", 
"Cluster name” :> "elasticsearch", 
"cluster uuid" : "zIVfwTOEThicvodbwRGeIA", 
wversion™ : { 
Dl op hd 
"build flavor™ : "default", 
"build type" sdeb 
"build hash" "508c38a", 
"build date" "2019-06-20T15:54:18.8117302Z", 
"build snapshot" : false, 
"lucene version" : "8.0.0", 
"minimum wire compatibility version" : "6.8.0", 
"minimum index compatibility version" : "6.0.0-betal" 


}, 
"tagline" : "You Know, for Search" 


安装 Logstash 

sudo apt-get install default-jre 
sudo apt-get install logstash 
安装 Kibana 

sudo apt-get install kibana 

修改 Kibana 配 置 , 增加 下 面 的 几 行 

sudo vim /etc/kibana/kibana.yml 
server.port: 5601 

server.host: "0.0-0.0" 
elasticsearch.hosts: ["http://localhost:9200"] 
# 启动 Kibana 服 务 

$ sudo service kibana start 

# 安装 Metricbeat 

$ sudo apt-get install metricbeat 
# 启动 Metricbeat 

$sudo service metricbeat start 


接 下 来 将 使 用 一 部 分 样本 数据 来 演示 如 何 使 用 Elastic 技术 栈 。 登 录 安 装 了 Elastic 技术 
栈 的 服务 器 ， 执 行 下 面 的 命令 : 


妇 井 切 井 切切 埋 一 


$ wget https://s3.amazonaws .Com/1ogzio-elk/apache-daily-access.1og 
$ sudo vim /etc/logstash/conf.d/web-01.conf 
input { 
file { 
path => "/home/vagrant/apache-daily-access.10g" 
start position => "beginning" 
sincedb path => "/dev/null™ 
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; 


filter { 
grok { 
match => { "message" => "%{COMBINEDAPACHELOG}" } 
. 
date { 
match => [ "timestamp" , "dd/MMM/yyyy:HH:mm:ss Zz" ] 
上 
geoip { 
source => "clientip" 
1 
|; 
output { 


elasticsearch { 
hosts => ["localhost:9200"] 
i 


# 启动 Logstash 服 务 
$ sudo service logstash restart 


正常 情况 下 ， 此 时 Elasticsearch 已 经 创建 了 一 个 Logstash 索引 。 打 开 浏 览 器 ， 进 入 
http: // 服务 器 全 : 5601/app/kibana#/management/kibana/index_pattern? gs= () ， 根 据 Kibana 
的 提示 创建 名 为 “logstash-*” 的 索引 ， 并 配置 @timestamp 作为 过 滤 字 段 。 之 后 进入 http: // 
服务 器 IP: 5601/app/kibana#/discover， 就 能 看 到 数据 报表 了 。 

Elasticsearch 提供 了 功能 多 样 的 API 供用 户 查询 存储 的 数据 ， 例 如 ， 下 面 的 命令 列 出 刚 
才 Logstash 和 Kibana 创建 的 索引 : 


$ curl http://localhost:9200/ aliases?pretty=true 
"logstash-2019.07.03-000001™ : { 
"aliases" : { 
LOgsEaSR sf 
"is write index" : true 
} 
}, 
wkipana Tn eo 
ed 
» kibanas s Fo 
. 
}, 
".kibana task manager" a 
mal he 
1 
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14.3.2 ”Elasticsearch 集 群 


Elasticsearch 是 Elastic 技术 栈 的 核心 组 件 。 它 是 一 个 功能 丰富 且 复 杂 的 系统 ， 在 学 习 
它 之 前 需要 了 解 以 下 6 个 基本 概念 。 

@ 索引 : Elasticsearch 的 索引 是 文档 的 逻辑 分 区 。 以 之 前 做 的 电 商 应 用 为 例 ， 可 以 为 
商品 数据 建立 一 个 索引 ， 为 用 户 数据 建立 另外 一 个 索引 。Elasticsearch 对 索引 数量 
没有 做 限制 ， 不 过 过 多 的 索引 会 影响 性 能 。 

@ 文档 : 文档 是 存储 在 Elasticsearch 索引 中 的 JSON 对 象 ， 是 存储 的 基本 单位 ， 有 点 
儿 类 似 关 系数 据 库 中 表 的 行 。 文 档 中 的 数据 主要 是 一 个 键 值 对 ， 键 是 字段 的 名 称 ， 
值 可 以 是 多 种 类 型 的 数据 ， 如 字符 串 、 数 字 、 数 字 表 达 式 、JSON 对 象 或 数组 。 文 
档 中 还 有 一 些 元 数据 ， 如 index、_type 和 _id。 

@@ 类 型 : Elasticsearch 的 类 型 用 来 细 分 相似 类 型 的 数据 。 

@ 映射 : Elasticsearch 的 映射 定义 了 特殊 文档 的 数据 类 型 ， 以 及 如 何在 Elasticsearch 中 
索引 和 存储 相关 类 型 的 字段 。 

@ 分 片 : Elasticsearch 没有 限制 单个 索引 可 以 存储 的 文档 数量 ， 因 此 索引 可 能 会 占用 
超过 服务 器 限制 的 磁盘 空间 。 分 片 是 解决 这 个 问题 的 常用 方案 ， 这 个 方案 将 单个 索 
引 的 文档 分 散在 不 同 的 服务 器 节点 上 ， 这 样 既 能 解决 文档 存储 空间 问题 ， 也 能 部 分 
提升 性 能 。 

@ 副本 : Elasticsearch 通过 副本 机 制 来 实现 服务 的 高 可 用 。 副 本 不 会 和 其 复制 的 分 片 
在 同一 节点 上 。 

在 Elasticsearch 集群 中 ， 每 个 节点 都 运行 一 个 Elasticsearch 服务 。 这 些 节 点 被 分 为 下 面 

3 种 类 型 。 

@ 主 节 点 : 主 节点 负责 协调 集群 任务 ， 如 跨 节点 分 片 、 创 建 索引 和 删除 索引 等 。 每 个 
Elasticsearch 集群 都 会 自动 从 所 有 符合 条 件 的 节点 中 选举 出 一 个 主 节点 ; 当主 节点 
停止 服务 时 ， 集 群 会 自动 选 出 新 的 主 节点 。 

@ 数据 节点 : 数据 节点 会 以 分 片 形式 存储 数据 ， 并 执行 与 索引 、 搜 索 和 聚合 数据 相关 
的 操作 。 在 比较 大 的 集群 中 ， 数 据 节点 会 配置 node.master: false， 让 其 不 参与 主 节 
点 的 选举 。 

@ 客户 节点 : 客户 节点 用 作 集 群 内 的 负载 均衡 器 ， 帮 助 路 由 器 索引 和 搜索 请 求 。 根 据 
实际 情况 的 不 同 ， 集 群 可 能 并 不 需要 客户 节点 ， 因 为 数据 节点 能 够 自己 处 理 请 求 路 
由 器 。 
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在 Elasticsearch 集群 中 ， 索 引 存在 一 个 或 多 个 分 片 和 副本 分 片上 ， 每 个 分 片 都 是 一 个 
Lucene 实例 。 在 创建 索引 时 ， 可 以 指定 主 分 片 和 副本 分 片 的 数量 。 例 如 ， 设 置 产品 索引 的 
主 分 片 和 副本 分 片 的 数量 都 是 5， 用 户 索 引 的 分 片 数量 是 2， 如 图 14.4 所 示 。 


产品 索引 用 户 索 引 


| ! ! | | 
ED 主 分 上 | 


i i 


2 
副本 | 副本 | 副本 | 副本 | 副本 | 副本 
分 片 0 儿 分 片 1 儿 分 片 2 上 分 片 3 上 分 片 4 分 片 0 


14.4 ”Elasticsearch 分 片 


在 实际 的 集群 中 ， 主 分 片 和 副本 分 片 会 分 布 在 不 同 的 数据 节点 上 ， 主 节点 会 保证 同一 
分 片 的 主 分 片 和 副本 分 片 不 在 同一 个 数据 节点 上 ， 如 图 14.5 所 示 。 


数据 节点 0 数据 节点 1 数据 节点 2 
索引 A 索引 A 索引 A 索引 B 
主 分 片 0 主 分 片 2 主 分 片 3 副本 分 片 1 
索引 A | 索引 B 索引 A 索引 A 
副本 分 片 2 副本 分 片 0 | | 副本 分 片 3 副本 分 片 1 
数据 节点 3 数据 节点 4 
索引 A 索引 B 索引 A | 索引 B | 
主 节点 主 分 片 4 主 分 片 0 主 分 片 1 主 分 片 1 
索引 A 索引 A 
副本 分 片 0 副本 分 片 4 


14.5 ”在 节点 上 分 片 分 布 


用 户 在 使 用 Elasticsearch 的 时 候 ， 主 要 会 发 起 两 类 请 求 : 搜索 和 索引 。 以 传统 数据 库 
来 类 比 的 话 ， 搜 索 请 求 类 似 于 读 取 请 求 ， 索 引 类 似 于 写 入 请 求 。 
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搜索 请 求 从 开始 到 结束 会 经 历 以 下 步骤 。 

(1) 客户 向 集群 的 某 个 节点 发 起 请 求 ， 请 求 带 上 索引 和 搜索 条 件 。 为 方便 描述 ， 假 设 
收 到 请 求 的 是 节点 2。 

(2) 节点 2 将 查询 发 送 到 索引 中 每 个 分 片 的 副本 。 

(3) 每 个 分 片 在 本 地 执行 查询 ， 并 将 结果 返回 给 节点 2， 节 点 2 对 这 些 结果 进行 排序 。 

(4) 节点 2 找 出 需要 提取 的 文档 ， 并 向 相关 分 片 发 送 获 取 请 求 。 

(5) 每 个 分 片 找到 文档 并 将 它们 返回 节点 2。 

(6) 节点 2 将 搜索 结果 返回 给 客户 。 

当 新 的 信息 添加 到 索引 或 者 索引 中 的 信息 被 更 新 和 删除 时 ， 索 引 中 的 每 个 分 片 都 会 通 
过 两 个 过 程 进行 更 新 : refresh 和 flush。 

新 加 入 索引 的 文档 不 能 马上 被 搜索 到 。 这 些 文档 首先 会 被 写 入 内 存 缓 冲 区 ， 等 待 下 一 
次 的 refresh。 默认 情况 下 , refresh 每 秒 执行 一 次 , 它 会 将 缓存 区 的 数据 复制 到 新 的 内 存 段 中 ， 
这 样 数据 就 能 被 搜索 到 了 。 最 后 清理 内 存 缓存 区 。 

索引 的 分 片 由 多 个 段 组 成 ， 每 个 段 实际 上 是 索引 的 变更 集合 。 这 些 段 在 每 次 refresh 的 
时 候 创建 ， 随 后 在 后 台 合 并 在 一 起 ， 以 确保 有 效 利用 节点 资源 。 段 是 不 可 变 的 数据 ， 所 以 
每 次 更 新 文档 都 要 写 入 新 的 段 并 删除 旧 的 段 。 

在 新 文档 被 加 到 内 存 缓冲 区 的 同时 ， 它 也 会 附加 到 分 片 的 日 志 中 。 每 隔 30min， 或 当 
日 志 最 大 〈 默 认为 S12MB) 时 ，Elasticsearch 会 触发 fush。 在 每 次 的 flush 中 ， 所 有 内 存 
缓冲 区 的 数据 都 会 被 刷新 ， 所 有 内 存 中 的 段 都 会 提交 到 磁盘 ， 并 清除 日 志 。 

日 志 确保 了 在 节点 发 生 故障 时 数据 不 会 丢失 ， 它 可 以 帮助 分 片 恢复 在 刷新 之 间 可 能 丢 
失 的 操作 。 


日 志 是 应 用 程序 在 运行 中 产生 的 重要 数据 , 它 能 够 有 效 帮助 工程 师 监控 系统 运行 状况 ， 
并 在 发 生 问题 时 定位 和 解决 问题 。 

作为 Python 语言 编写 的 Web 框架 ，Django 可 以 直接 使 用 Python 自 带 的 日 志 模 块 来 记 
录 不 同 级 别 的 事件 。 本 章 介 绍 了 如 何 使 用 和 配置 Python 的 logging 模块 ， 并 介绍 了 Django 
为 Web 开发 定制 的 日 志 工具 。 
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在 规模 较 大 的 应 用 中 ， 日 志 会 分 散在 多 个 服务 器 中 ， 对 于 日 志 的 集中 管理 和 分 析 需 求 
日 渐 迫 切 。 本 章 介绍 了 集中 管理 和 分 析 日 志 的 解决 方案 一 一 Elastic 技术 栈 ， 并 演示 了 如 何 
采用 该 技术 栈 收集 、 存 储 和 分 析 日 志 。Elasticsearch 是 Elastic 技术 栈 的 核心 组 件 ， 本 章 介 


绍 了 Elasticsearch 集群 的 工作 方式 。 


bs) 练 “ 习 


练习 一 : Python 的 logging 模块 有 哪 几 个 组 件 ? 
练习 二 : Elastic 技术 栈 有 哪 几 个 组 件 ? 


第 15 章 监 控 


在 条 企业 或 组 织 中 ， 保 持 设备 、 网 络 和 系统 良好 运行 是 运营 的 关键 ， 因 为 客户 和 用 户 会 直接 获得 技 
术 服 务 。 虽 然 技 术 至 关 重要 , 但 并 不 是 绝对 可 靠 。 软 件 和 硬件 的 故障 导致 服务 不 可 用 的 情况 可 能 随时 出 现 。 

因此 ， 在 依赖 计算 机 基础 设施 的 企业 或 组 织 中 ， 有 必要 随时 监控 系统 的 运行 状况 ， 并 在 出 现 故 
障 时 予以 修正 ， 以 确保 可 能 出 现 的 错误 最 终 不 会 影响 提供 给 用 户 的 服务 。 系 统 的 方方面面 都 需要 被 
监控 到 。Django 作为 Python 开发 的 Web 开发 框架 ， 非 常 易于 接 入 各 类 监控 系统 。 

本 章 主 要 涉及 的 知识 点 : 

@ ”监控 数据 的 采集 : 了 解 监控 数据 的 采集 。 

@ 告警 : 了 解 告警 的 级 别 和 处 理 方式 。 

@ Prometheus 的 使 用 : 学 习 如 何 使 用 Prometheus 采集 监控 数据 。 


监控 数据 的 核心 要 点 是 : 采集 监控 数据 很 容易 采集 和 存储 ; 不 过 如 果 在 发 生 问题 时 缺 
少 监控 数据 ， 则 代价 是 非常 大 的 。 所 以 ， 我 们 有 必要 检测 系统 的 各 个 方面 ， 并 合理 地 收集 
所 有 有 用 的 数据 。 

监控 数据 有 多 种 形式 。 有 些 系 统 会 持续 地 输出 数据 ， 而 其 他 系统 只 会 在 发 生 罕见 事件 
的 时 候 生成 数据 。 有 些 数 据 能 够 直接 定位 问题 , 有 些 数 据 能 帮助 调查 问题 所 在 。 更 宽泛 地 说 ， 
拥有 监控 数据 是 观察 系统 工作 状况 的 必要 条 件 。 

指标 是 在 特定 时 间 捕 获 的 与 系统 相关 的 值 ， 如 当前 正 处 于 活跃 状态 的 用 户 数 量 。 因此 ， 
指标 通常 以 固定 时 间 间 隔 收集 ， 如 每 秒 采 集 一 次 、 每 分 钟 采集 一 次 。 

指标 可 以 分 为 两 大 类 : 工作 指标 和 资源 指标 。 对 于 每 个 依赖 软件 的 系统 ， 都 应 该 考虑 
哪些 工作 指标 和 资源 指标 是 合理 的 ， 并 且 将 其 全 部 收集 。 


15.1.1 工作 指标 


工作 指标 通过 系统 的 输出 来 获取 系统 的 运行 状况 。 在 考虑 采集 工作 指标 时 ， 通 常 可 以 
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将 这 些 指标 分 成 以 下 4 类 。 

@ 吞吐 量 : 吞吐 量 是 系统 在 单位 时 间 内 完成 的 工作 量 。 吞 吐 量 通常 用 绝对 数值 ( 非 百 
分 比 这 样 的 相对 数值 ) 记录 。 

@ 成 功率 : 成 功率 是 指 成 功 执行 的 工作 占 总 工作 量 的 百分比 。 

@ 错误 率 : 错误 率 是 指 执行 失败 的 工作 占 总 工作 量 的 百分比 。 在 实际 操作 中 ， 错 误 率 
和 成 功率 通常 分 开采 集 ， 尤 其 当 存 在 多 个 潜在 的 错误 来 源 时 。 如 果 这些 来 源 中 的 有 
些 来 源 比 其 他 来 源 更 重要 ， 则 分 开采 集 错 误 率 和 成 功率 更 是 必要 的 。 

@ 性 能 : 性 能 是 指 软件 的 工作 效率 。 最 常见 的 性 能 指标 是 延迟 。 延 迟 表 示 一 个 工作 单 
元 所 需 的 时 间 。 延 迟 可 以 表示 为 平均 值 或 百分比 ， 例 如 ，“99%6 的 请 求 在 0.1 秒 内 
返回 ”“ 处 理 请 求 的 平均 延迟 是 0.2 秒 ”。 

以 上 指标 对 于 观察 系统 的 运行 状况 非常 重要 。 采 集 这 些 数据 可 以 让 我 们 快速 回答 关于 

系统 内 部 健康 和 性 能 最 紧迫 的 问题 : 系统 现在 可 用 吗 ? 系统 现在 性 能 如 何 ? 

下 面 列 出 两 个 常见 系统 的 工作 指标 作为 示例 。 一 个 系统 是 Web 服务 器 ， 在 系统 的 某 一 

段 时 间 内 ， 其 指标 如 表 15.1 所 示 。 


表 15.1 Web 服务 器 指标 
| 成 功率 ”| 两 次 测量 间 状 态 码 为 2XX 的 响应 百分比 |91 | 


错误 率 两 次 测量 间 状态 码 为 5XX 的 响应 百分比 lot | 
性 能 90% 的 请 求 的 响应 时 间 〈 秒 ) ll4 | 


另 一 个 系统 是 数据 存储 系统 ， 在 系统 的 某 一 段 时 间 内 ， 其 指标 如 表 15.2 所 示 。 
表 15.2 数据 存储 系统 指标 
描 述 


每 秒 查询 次 数 
每 次 测量 间 成 功 执行 的 查询 百分比 


两 次 测量 间 执 行 失败 的 查询 百分比 


两 次 测量 间 返 回 过 时 数据 的 查询 百分比 


15.1.2 ”资源 指标 


软件 基础 架构 的 大 多 数组 件 是 其 他 系统 的 资源 。 有 一 些 资源 是 底层 的 ， 如 CPU、 内 存 、 


磁盘 和 网 络 接口 之 类 的 物理 组 件 ， 另 外 一 些 组 件 〈 如 数据 库 或 者 地 理 位 置 微 服务 ) 也 可 以 
被 看 成 资源 ， 因 为 其 他 系统 需要 这 些 组 件 来 完成 工作 。 
资源 指标 有 助 于 了 解 系统 的 详细 状态 ， 这 在 调查 问题 和 诊断 问题 的 时 候 是 特别 有 价值 
的 。 资 源 指标 可 以 分 为 以 下 4 类 。 
@ 利用 率 : 利用 率 指 资源 繁忙 时 间 的 百分比 ， 或 者 资源 容量 正在 使 用 的 百分比 。 
@ 饱和 度 : 饱和 度 是 使 当前 系统 无 法 提供 服务 的 请 求 上 限 。 通 常 这 些 请 求 会 被 存放 在 
队列 中 进行 后 续 处 理 。 
@ 错误 : 错误 指 在 工作 过 程 中 资源 产生 的 内 部 错误 。 
@@ 可 用 性 : 可 用 性 指 资源 响应 请 求 的 时 间 百 分 比 。 仅 可 以 对 主动 和 定期 检查 的 资源 定 
义 可 用 性 。 
见 的 资源 指标 如 表 15.3 所 示 。 
表 15.3 ”常见 的 资源 指标 


ean pa 
ET Ra 如 复制 TTT 


还 有 一 些 指标 既 不 是 工作 指标 ， 也 不 是 资源 指标 ， 但 这 些 指标 同样 有 助 于 观察 复杂 的 
系统 ， 比 较 常见 的 例子 是 缓存 命中 数 或 者 数据 库 锁 。 


15.1.3 ”事件 


除了 可 以 连续 收集 的 指标 外 ， 一 些 监控 系统 还 可 以 捕获 事件 。 这 些 事件 往往 出 现 得 频 
繁 而 离散 ， 但 对 整个 系统 的 理解 是 有 帮助 的 ， 例 如 : 

(1) 变更 : 代码 的 发 布 、 构 建成 功 和 构建 失败 。 

(2) 告警 : 内 部 或 第 三 方 的 通知 。 

(3) 扩容 事件 ， 增 加 或 减少 主机 的 数量 。 

事件 通常 带 有 足够 的 信息 ， 这 些 信息 可 以 单独 使 用 ， 而 不 像 指 标 数 据点 通常 只 有 在 上 
下 文中 才 有 意义 。 
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事件 会 记录 在 特定 时 间 点 发 生 的 事情 ， 表 15.4 是 一 些 事件 的 例子 。 
表 15.4 一 些 事件 的 例子 
事 件 时 间 附加 信息 
版 本 2.0 发 布 到 了 生产 环境 2018-12-02 04:07:15 发 布 用 了 45 秒 
合并 请 求 编 号 1630 被 合并 到 主干 分 支 2018-12-03 09:18:17 合并 的 提交 编号 为 ea720d6 


每 夜 数据 汇总 任务 失败 失败 任务 的 链接 


事件 有 时 候 用 来 生成 告警 ， 通 知 负 责 人 发 生 了 什么 事情 ， 如 在 重要 定时 脚本 失败 的 时 
候 发 送 电子 邮件 给 负责 人 ， 不 过 这 些 事件 更 常用 于 调查 问题 。 就 像 收集 指标 一 样 ， 应 该 尽 
可 能 地 收集 事件 。 


15.1.4 “收集 数据 


有 用 的 监控 数据 应 该 具有 以 下 4 个 特征 。 

(1) 易于 理解 。 好 理解 的 数据 能 让 人 快速 确定 其 含义 和 收集 方式 。 应 该 尽量 让 指标 和 
事件 保持 简单 。 

(2) 具有 采集 粒度 。 采 集 的 指标 数据 周期 过 长 ， 可 能 会 让 得 到 的 数据 无 法 正确 衡量 系 
统 的 当前 状况 。 例 如 ， 对 使 用 率 的 时 段 和 高 使 用 率 的 时 段 进行 平均 ， 会 得 到 时 段 内 错误 的 
利用 率 ， 因 此 采集 的 频率 不 能 太 低 ; 另外 ， 采 集 的 频率 也 不 能 太 高 ， 因 为 这 会 降低 系统 的 
性 能 。 

(3) 按照 范围 进行 标记 。IT 设施 可 能 包含 多 个 数据 中 心 ， 在 一 个 数据 中 心 范围 内 可 能 
有 多 台 主 机 同时 运行 ， 经 常 需要 检查 这 些 范 围 或 组 合 的 总 体 运行 状况 ， 例 如 :; 所 有 数据 中 
心 的 总 体 状况 如 何 ? 华东 地 区 的 服务 状况 如 何 ? 单 台 主机 的 服务 状况 如 何 ? 保留 数据 关联 
的 多 个 范围 非常 重要 , 有 了 这 些 范 围 , 可 以 在 发 生 故障 时 对 任意 范围 内 产生 的 问题 发 出 告警 ， 
并 快速 进行 调查 。 

(4) 长 时 间 存 储 。 如 果 过 早 丢 弃 数据 ， 或 者 在 一 段 时 间 后 汇总 指标 以 降低 存储 成 本 ， 
那么 有 关 过 去 发 生 事情 的 重要 信息 将 会 丢失 。 保 留 一 年 或 更 长 时 间 的 原始 数据 能 够 帮助 我 
们 更 容易 地 了 解 “正常 ”是 什么 ， 特 别 是 指标 会 随 着 月 度 、 季 度 和 年 度 变化 的 时 候 。 

总 之 ， 应 该 尽 可 能 多 地 收集 工作 指标 、 资 源 指标 和 事件 ， 因 为 观测 复杂 系统 需要 全 面 
指标 ;同时 也 要 收集 足够 粒度 的 指标 ， 以 显示 重要 的 峰值 和 下 降 趋势 。 指 标 采集 的 数据 粒 
度 与 实施 采集 的 成 本 和 指标 数据 的 变化 周期 有 关 。 不 同 的 指标 可 能 有 不 同 的 采集 粒度 ， 如 


内 存 或 CPU 可 以 以 秒 为 粒度 进行 统计 ， 能 耗 可 以 以 分 为 粒度 进行 统计 。 要 最 大 化 数据 的 价 
值 ， 需 要 在 指标 和 事件 上 标记 范围 ， 并 长 期 保留 数据 。 


自动 化 告警 对 监控 至 关 重 要 。 告 警 在 系统 产生 问题 时 发 出 ， 便 于 系统 维护 者 能 够 快速 
确定 问题 的 原因 并 最 大 限度 地 减少 对 服务 的 影响 。 监 控 数 据 有 助 于 观察 系统 的 运行 状况 ， 
而 告警 会 让 系统 负责 人 对 特定 系统 进行 检查 和 干预 。 

不 过 告警 并 不 总 是 有 效 的， 特别 是 当 告警 的 数量 特别 多 时 ， 真 正 有 用 的 信息 经 常 容 易 
在 嘲 杂 的 告警 海中 丢失 ， 导 致 不 能 确定 问题 的 根源 。 

告警 应 该 有 不 同 的 优先 级 。 重 要 程度 比较 低 的 告警 不 需要 通知 任何 人 ， 但 需要 记录 在 
监控 系统 中 ， 以 防 后 续 分 析 或 调查 。 对 于 中 等 紧急 的 警报 ， 可 以 通过 电子 邮件 或 即时 通信 
工具 等 非 中 断 方 式 通知 解决 问题 的 人 员 。 如 果 情 况 紧急 ， 则 应 该 通过 电话 等 方式 通知 相关 
人 员 。 表 15.5 列 出 了 一 些 常见 的 告警 场景 。 

表 15.5 ”常见 的 告警 场景 


记录 等 待 进程 数量 超过 阔 值 
资源 指标 ;: 错误 数量 记录 固定 时 间 段 内 错误 数量 超过 闵 值 
资源 指标 : 可 用 性 记录 资源 在 超过 阔 值 的 百分比 内 不 可 用 
事件 : 数据 备份 定时 脚本 电话 数据 备份 定时 脚本 失败 


一 些 警 报 不 会 与 服务 问题 相关 联 ， 这 些 问 题 可 能 永远 不 需要 相关 人 员 了 解 。 例 如 ， 当 
一 个 面向 用 户 的 数据 存储 的 查询 时 间 比 平时 慢 得 多 ， 但 速度 没有 慢 到 影响 整体 服务 的 响应 
时 间 时 ， 应 该 生成 一 个 低 优先 级 警报 ， 记 录 在 监控 系统 中 以 供 将 来 参考 或 调查 ， 而 不 应 该 
中 断 维护 者 的 工作 。 因 为 这 个 问题 可 能 只 是 暂时 的 ,如 网 络 出 现 抖动 , 往往 会 自行 消失 。 不 过 ， 
如 果 服 务 开始 大 规模 超时 ， 则 这 些 基 于 警报 的 数据 会 为 调查 问题 提供 宝贵 的 上 下 文 。 

一 些 问题 需要 工作 人 员 进 行 干预 ， 但 不 是 马上 进行 干预 。 例 如 ， 用 于 存储 数据 的 磁盘 
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出 现 空间 不 足 的 问题 ， 应 该 在 接 下 来 的 几 天 内 扩容 ， 这 时 向 服务 的 负责 人 发 送 电子 邮件 或 
者 聊天 消息 能 引起 负责 人 的 足够 重视 ， 又 不 会 干扰 到 负责 人 的 正常 工作 和 生活 节奏 。 

最 紧急 的 警报 应 该 得 到 特殊 处 理 ， 需 要 负责 人 马上 进行 处 理 。 例 如 ， 出 现 大 规模 用 户 
打 不 开 网 站 主页 的 现象 不 管事 故 在 什么 时 候 发 生 , 都 应 该 通过 电话 等 方式 立即 通知 负责 人 。 

在 设置 警报 的 时 候 ， 最 好 想 清楚 3 个 问题 ， 以 确定 正确 的 警报 的 紧急 程度 和 处 理 警报 
的 方式 。 

(1) 是 不 是 真 的 有 问题 ? 答案 看 起 来 很 明显 ， 不 过 在 实际 的 操作 中 ， 经 常会 出 现 误 判 
问题 的 情况 。 例 如 ， 测 试 环境 出 现 数据 异常 触发 了 报警 ， 服 务 器 的 常规 升级 触发 了 报警 。 
经 常 出 现 这 样 的 误 报 情况 ， 可 能 会 让 负责 人 疲 于 应 付 ， 而 忽略 了 真正 的 问题 。 如 果 问 题 确 
实 存在 ， 则 应 该 生成 警报 ， 哪 怕 是 不 通知 负责 人 ， 也 应 该 在 监控 系统 内 部 记录 该 警报 ， 以 
便 后 续 的 分 析 和 关联 。 

(2) 问题 是 否 需 要 关注 ? 系统 能 自动 地 处 理 问题 ， 是 最 好 的 。 打 断 工程 师 的 休息 时 间 
成 本 是 非常 高 的 。 当 问题 真 的 存在 ， 并 且 系 统 不 能 自动 恢复 时 ， 有 必要 发 出 警告 ， 通 知 负 
责 人 来 调查 并 解决 问题 。 通 知 的 形式 可 以 是 电子 邮件 、 聊 天 或 者 是 工 单 系统 ， 这 样 负责 人 
可 以 根据 问题 的 优先 级 来 依次 处 理 。 

(3) 问题 是 否 紧急 ? 并 不 是 所 有 的 问题 都 是 紧急 问题 。 例 如 ， 系 统 响应 得 比 正常 慢 一 
些 ， 或 者 部 分 缓存 失效 ， 这 些 都 是 真实 且 需 要 关注 的 问题 ， 但 是 不 应 该 为 了 这 些 问题 让 工 
程 师 在 凌晨 4 点 起 床 修复 。 另 外 ， 如 果 是 核心 系统 出 现 问题 ， 可 能 导致 关键 数据 永久 丢失 
那么 应 该 通过 电话 等 方式 立即 通知 工程 师 。 


ls.3) 使 用 Prometheus 

Prometheus 是 流行 的 开源 监控 软件 ， 主 要 用 于 事件 监控 和 警报 。Prometheus 使 用 
HTTP“ 拉 ”模型 获取 数据 ， 监 控 数据 存储 在 时 序数 据 库 中 。 使 用 它 可 以 实现 灵活 的 数据 查 
询 和 实时 警报 。 


15.3.1 ”Prometheus 的 工作 方式 


围绕 Prometheus 构建 的 监控 平台 由 多 个 组 件 构 成 。 这 些 组 件 包括 多 种 类 型 的 Exporter、 
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Prometheus、Alertmanager、Grafana 等 。 这 些 组 件 有 着 不 同 的 作用 ， 具 体 如 下 。 
@ Exporter 组 件 用 于 在 监控 的 主机 和 服务 上 抓 取 监控 数据 。 
@ Prometheus 组 件 用 于 中 心 化 存储 监控 数据 。 
@ Alertmanager 组 件 用 于 根据 监控 数据 触发 告警 。 
@ Grafana 组 件 用 于 展示 数据 。 
Prometheus 组 件 还 提供 了 PromQL 查询 语言 ， 用 于 创建 报表 和 告警 。 
Prometheus 监控 系统 如 图 15.1 所 示 。 


Consul 等 服务 
Web 应 用 | 注册 中 心 网 
应 用 数据 ma 和 全 乔 
node exporter | BRO 
统 数 
人 数据 采集 | | 规则 告警 
. 数据 仪表 盘 
中 间 件 export a 
中 间 件数 据 | | | 时 序数 据 存储 
Grafana 展 示 
图 表 


15.1 Prometheus 监控 系统 


Prometheus 数据 以 指标 的 形式 存储 ， 每 个 指标 都 有 一 个 用 于 查询 的 名 字 。 可 以 为 每 个 
指标 定义 一 个 或 多 个 标签 ， 标 签 可 以 是 监控 数据 的 来 源 ， 也 可 以 具有 特定 的 业务 意义 等 。 
Prometheus 可 以 指定 任意 标签 列表 并 基于 这 些 标签 实时 查询 数据 ， 这 说 明 Prometheus 的 数 
据 模型 是 多 维 的 。 

Prometheus 适用 于 以 机 器 为 中 心 的 监控 及 微服 务 架 构 的 监控 。 默 认 情 况 下 ， 每 个 
Prometheus 服务 都 是 独立 的 ， 它 不 依赖 于 网 络 存储 或 其 他 远程 服务 。 

下 面 演示 如 何在 Ubuntu 16.04 系统 中 安装 Prometheus 服务 。 登 录 服 务 器 后 ， 打 开 命 令 
行 软件 ， 执 行 下 面 的 命令 : 


# 升级 软件 源 

$ sudo apt-get update 

# 安装 Prometheus 

$ sudo apt-get install prometheus 
# 启动 Prometheus 服 务 

$ sudo service prometheus start 
间 


查看 服务 状态 


Django 项 目 开 


$ sudo service prometheus status 

®@ prometheus.service - LSB: Monitoring system and time series database 
Loaded: loaded (/etc/init.d/prometheus; bad; vendor preset: enabled) 
Active: active (running) since Mon 2019-07-08 12:36:12 UTC; 2min 23s ago 

# 默认 情况 下 , Prometheus 的 配置 文件 位 于 /etc/prometheus 目 录 下 

$ 1s /etc/prometheus/ 

console libraries consoles prometheus.yml 

# 默认 情况 下 , Prometheus 的 数据 位 于 /var/1ib/prometheus 目 录 下 

$ 1s /var/lib/prometheus/ 

metrics 


Prometheus 提供 了 丰富 的 API 用 于 查询 指标 、 标 签 、 规 则 等 数据 。 例 如 ， 下 面 的 命令 
用 于 查询 名 为 “up” 的 指标 数据 : 


$ curl 'http://localhost:9090/api/vl/query?query=up" 
{"status":"success","data":{"resultType":"vector","result":[{"metr 
ic":{" name ":"up","instance":"localhost:9090","job":"prometheus"}, 
"value": [1562590279.753,"1"]},{"metric": {= nano Pops "instance":"]lo 
calhost:9100","job":"node"}, "value":[1562590279.753,"1"]}]}} 


15.3.2” 抓 取 Linux 系 统 数 据 


许多 库 和 应 用 程序 采用 从 第 三 方 系统 采集 的 数据 作为 Prometheus 指标 使 用 。 对 于 
Prometheus 无 法 直接 采集 数据 的 第 三 方 系统 来 说 ， 这 些 库 和 应 用 程序 是 很 有 用 的 。 

在 前 面 的 章节 中 , 我 们 实现 了 一 个 简单 的 电 商 应 用 , 设计 的 应 用 架构 为 接 入 层 (Nginx) - 
应 用 层 (Django) - 数据 层 (MySQL) 。 这 3 层 无 疑 是 我 们 需要 监控 的 对 象 。 应 用 运行 在 
Linux 服务 器 上 ， 因 此 Linux 服务 器 也 是 要 监控 的 对 象 。 

下 面 介 绍 如 何 采 集 Linux 服务 器 、Nginx 和 MySQL 的 监控 数据 。 方 便 起 见 ， 我 们 将 
Prometheus 和 常用 的 exporter 都 放 在 同一 台 服 务 器 上 ， 用 于 演示 。 

Node Exporter 可 用 于 采集 Linux 服务 器 上 各 种 与 硬件 和 内 核 相关 的 指标 。 使 用 apt-get 
安装 Prometheus 时 会 一 起 安装 Node Exporter: 


$ service prometheus-node-exporter status 
®@ prometheus-node-exporter.service - LSB: Prometheus exporter for machine 
metrics 

Loaded: loaded (/etc/init.d/prometheus-node-exporter; bad; vendor preset: 
enabled) 

Active: active (running) since Mon 2019-07-08 12:36:12 UTC; 13h ago 
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也 可 以 使 用 下 面 的 命令 单独 安装 Node Exporter: 


# 下 载 和 解压 安装 包 

curl 

https://github.com/prometheus/node exporter/releases/download/v0.15.1/ 
node exporter-0.15.1.1linux-amd64.tar.gz 

tar xvf node exporter-0.15.1.1inux-amd64.tar.gz 

sudo cp node exporter-0.15.1.1linux-amd64/node exporter /usr/local/bin 
# 创建 执行 用 户 

sudo useradd --no-create-home --shell /bin/false node exporter 

sudo chown node exporter:node exporter /usr/local/bin/node exporter 
# 创建 service 文 件 

sudo vim /etc/systemd/system/node exporter.service 

[Unit] 

Description=Node Exporter 

Wants=network-online.target 

After=network-online.target 

[Service] 

User=node exporter 

Group=node exporter 

Type=simple 

ExecStart=/usr/local/bin/node exporter 

[Installl] 

WantedBy=multi-user.target 

# 启动 服务 

sudo systemctl daemon-reload 

sudo systemctl start node exporter 


安装 完成 后 ， 需 要 配置 Prometheus， 让 其 能 够 从 Node Exporter 中 抓 取 数 据 。Node 
Exporter 默认 会 监听 端口 9100。Prometheus 的 配置 如 下 : 


$ sudo vim /etc/prometheus/prometheus.yml 


- job name: 'node exporter' 
scrape interval: 5s 
static configs: 
- targets: ['localhost:9100'] 
# 重启 Prometheus 
$ sudo service prometheus restart 


Promethues 设置 为 每 隔 5 秒 从 Node Exporter 抓 一 次 数据 。 我 们 可 以 通过 Node Exporter 
的 接口 手动 抓 取 数 据 ， 登 录 运 行 Node Exporter 的 服务 器 ， 执 行 下 面 的 命令 : 
# 从 命令 行 手动 抓 取 数 据 


$ curl http://127.0.0.1:9100/metrics 
# Node Exporter 会 返回 大 量 的 数据 , 下 面 仅 展示 cpu0 的 数据 
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Django 


node cpu{ cpu="cpu0",mode="guest"} 0 

node cpu{cpu="cpu0",mode="idle"} 8683.26 
node cpu{cpu="cpu0",mode="iowait"} 2.88 
node cpu{cpu="cpu0",mode="irq"} 0 

node cpu{cpu="cpu0",mode="nice"} 1.49 
node cpu{cpu="cpu0",mode="softirq"} 0.85 
node cpu{cpu="cpu0",mode="steal"} 0 
node_cput{cp cpu0",mode="system"} 6.95 
node_ cpu{cpu="cpu0",mode="user"} 12.43 


经 过 一 段 时 间 后 ，Prometheus 会 积累 不 同时 间 点 的 Node Exporter 数据 ， 可 以 通过 


Prometheus 提供 的 HITPAPI 查询 到 这 些 数据 ， 如 下 面 的 命令 用 于 获取 cpu0 的 监控 数据 : 


# 获取 cpu0 的 监控 数据 

$ curl http://localhost:9090/api/vil/query?query=node_ 
cpu%s7Bcpu%3D%22cpu0%22%7D 
{"status":"success","data":{"resultType":"vector", "result":[{"metric": 
1" name "node cpurr "cpa" Mepud" "natance .iocalhost: 900” 
sob :noder "mod irg" i valde" L268 206 Om, 
faetric” tn name "node cpu"r"cpu":"cpu0" "instance"”:"Localhos 
E900"7 Ope :"node", "moae" steadyalue [15626398725-366-"0"]]}y 
{"metric": :"node cpu","cpu":"cpu0","instance":"localhost: 
9100","job ode":"iowait"}r "value": [i562638725.366."2.92"1}, 
{"metric _ name _":"node cpu","cpu":"cpu0","instance":"localhost:9 
LO0m "je: node", "mode":"idle" yr"value"=: [I1562638725-3667 "9706=:12"])r 
{"metric":{" name ":"node cpu","cpu":"cpu0","instance":"localhost:9 
LO0" "JIob"vnoda", "modev: vasoftirda"y. valueov: ti5626307256366, “091" 1 
{"metric" name _":"node cpu","cpu":"cpu0","instance":"localhost 
node", "mode":"nice"},"value": [1562638725.366,"1.49"]}, 
name ":"node cpu","cpu":"cpu0","instance":"localhos 
t:9100","job":"node mode":"guest"},"value": [1562638725.366,"0"]}, 
{"metric":{" name ":"node cpu","cpu":"cpu0","instance":"localhost 
:9100","job":"node", "mode":"system"},"value": [1562638725.366,"7.35"]}, 
{"metric":{" name ":"node cpu","cpu":"cpu0","instance":"localhost:9100 
", "job":"node", "mode":"user"},"value": [1562638725.366,"13.34"]}]}} 


15.3.3” 抓 取 Neginx 监 控 数据 


抓 取 Nginx 监控 数据 比较 流行 的 做 法 是 通过 第 三 方 模块 在 Nginx 内 部 记录 指标 数据 ， 


然后 暴露 接口 供 其 他 服务 抓 取 。 这 种 方法 需要 Nginx 安装 Lua 模块 ， 并 设置 server 模块 。 
安装 和 配置 Nginx 的 示例 如 下 : 


# 安装 Nginx 及 主要 的 模块 , 包括 Lua 模 块 
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$ sudo apt-get install nginx-extras 


# 修改 配置 文件 

$ sudo vim /etc/nginx/nginx.conf 
worker processes auto; 
events { 


worker connections 1024; 
http { 
# 用 于 存储 指标 数据 的 内 存 大 小 
lua shared dict prometheus metrics 10M; 
# 存放 Lua 脚 本 的 位 置 
lua package path '/etc/nginx/conf.d/lua/?.1lua;; 
init by lua block { 
# 初始 化 Prometheus 肢 本 
prometheus = require("prometheus") .init ("prometheus metrics") 
# 统计 HTTP 请 求 数 
metric requests = prometheus:counter( 
"nginx http requests total", "Number of HTTP requests", {"host", "status"}) 
# 统计 HTTP 请 求 延迟 
metric latency = prometheus:histogram( 
"nginx http request duration seconds", "HTTP request latency", 
{"host"}) 
# 统计 HTTP 请 求 连接 数 
metric connections = prometheus:gauge( 
"nginx http connections", "Number of HTTP connections", {"state"}) 


} 
log by lua block { 
metric requests :inc(1, {ngx.var. server name, ngx.var.status}) 
metric latency:observe (tonumber (ngx.var.request time), {ngx.var. 
server name}) 


include mime.types; 

default type application/octet-stream; 
# 用 于 抓 取 数 据 的 接口 

server { 


listen 9145; 

access 1og off; 

# 只 允许 受信 任 的 来 源 采集 数据 

# allow 192.168.0.0/16; 

# deny all; 

location /metrics { 

content by lua block { 

metric connections:set (ngx.var.connections active, {"active"}) 
metric connections :set (ngz.var.connections reading, {"reading"}) 
metric connections:set (ngx.var.connections writing, {"writing"}) 
metric connections:set (ngx.var.connections waiting, {"waiting"}) 
prometheus:collect () 


DEV rb 


include /etc/nginx/sites-enabled/*; 


创建 目录 用 于 lua 库 的 存放 

sudo mkdir /etc/nginx/conf.d/lua 

复制 Prometheus 脚 本 

git clone https://github.com/knyar/nginx-lua-prometheus.git 

sudo cp nginx-lua-prometheus/prometheus.lua /etc/nginx/conf.d/lua/ 
重启 Nginx 

sudo service nginx restart 


在 上 面 的 配置 中 ， 配 置 9145 端口 用 于 暴露 采集 数据 的 接口 。 下 面 先 构造 一 些 对 Nginx 
的 请 求 ， 然 后 采集 监控 数据 。 
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安装 Apache2 

sudo apt-get install apache2 

构造 会 返回 200 的 请 求 

ab =n 100 ce 10 http: /L270:01/ 

构造 会 返回 404 的 请 求 

ab -n 100 -c 10 http://127.0.0.1/404 

采集 监控 数据 , 数据 比较 多 , 这 里 只 展示 任意 状态 码 的 请 求 数量 
curl http://127.0.0.1:9145/metrics 

nginx http requests total{host="",status="200"} 102 
nginx http requests total{host="",status="404"} 100 
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15.3.4， 抓 取 MySQL 监控 数据 


mysqld_exporter 用 来 采集 MySQL 服务 的 指标 数据 ， 它 工作 的 方式 是 连接 到 MySQL 
服务 器 ， 执 行 查询 来 获取 MySQL 服务 的 数据 ， 因 此 需要 mysqld_exporter 进程 拥有 访问 
MySQL 的 权限 。 下 面 将 演示 如 何 使 用 mysqld_exporter 来 抓 取 数据 。 

首先 需要 安装 MySQL， 并 且 配 置 账户 用 于 mysqld_exporter 的 请 求 。 在 命令 行 软件 中 
执行 下 面 的 命令 : 


# 安装 MYSQL 服 务 并 设置 用 户 和 密码 

$ sudo apt-get install mysql-server 
# 登录 MySQL 

$ mysql -uroot -p 

# 创建 sxporter 用 户 并 赋予 权限 


mysql> CREATE USER ‘exporter'@'localhost' IDENTIFIED BY "XXXXXXXX" WITH 
MAX USER CONNECTIONS 3; 

Query OK, 0 rows affected (0.00 sec) 

mysql> GRANT PROCESS, REPLICATION CLIENT， SELECT ON *.* TO 
'exporter'@'localhost'; 

Query OK, 0 rows affected (0.00 sec) 

mysql> ^DBye 


接 下 来 使 用 Docker 安装 和 运行 mysqld_exporter， 执 行 命令 如 下 : 


$ sudo docker pull prom/mysqld-exporter 

# 运行 nysqld exporter 

$ docker run -d -p 9104:9104 --network my-mysql-network -e DATA SOURCE 
NAME="user:password@ (machine ip:3306)/" prom/mysqld-exporter 

# 抓 取 数 据 

$ curl http://localhost:9104/metrics 

# 数据 比较 多 , 这 里 列 出 连接 数 和 查询 数据 


mysql global status connections 9 
mysql global status queries 59 
mysql global status questions 53 


15.3.5 数据 存储 


Prometheus 默认 将 指标 数据 存储 在 本 地 ， 同 时 支持 将 数据 存储 在 远程 存储 系统 中 。 

每 两 小 时 , Prometheus 会 根据 这 段 时 间 采 集 的 数据 生成 一 个 块 。 每 个 块 都 是 一 个 文件 夹 ， 
文件 夹 包含 多 个 块 文件 ， 文 件 中 存储 了 两 小 时 内 所 有 的 样本 数据 ;文件 夹 中 还 存在 元 文件 
和 索引 文件 ， 索 引 的 指标 名 和 标签 就 存在 这 些 文件 中 。 当 通过 Prometheus 提供 的 API 删除 
数据 时 ， 删 除 的 记录 会 存储 在 单独 的 逻辑 删除 文件 中 ， 而 不 是 立即 从 块 文件 中 删除 数据 。 

还 没有 存储 到 块 的 数据 会 保存 在 内 存 中 。 为 了 防止 Prometheus 崩溃 时 没有 存储 的 数据 
丢失 ， 并 在 服务 恢复 时 找 回 数据 ，Prometheus 采用 了 预 写 日 志 (Write-Ahead-Log，WAL) 
的 策略 ， 即 在 数据 计 入 内 存 之 前 先 将 日 志 写 入 磁盘 ， 日 志 存储 在 wal 文件 夹 中 。 

Prometheus 的 每 个 样本 平均 使 用 1B 至 2 了 B。 因 此 ， 可 以 大 致 计算 Prometheus 服务 器 的 
磁盘 容量 ， 计 算 公式 为 每 秒 的 样本 数 X 每 个 样本 的 空间 X 服务 运行 的 时 间 。 

单 点 存储 数据 会 限制 数据 的 可 用 性 。Prometheus 本 身 支持 远程 存储 ， 而 且 提供 了 一 组 
允许 与 远程 存储 系统 集成 的 接口 。Promethues 提供 两 种 与 远程 存储 集成 的 方式 : 

@ Prometheus 以 标准 格式 将 样本 数据 写 入 远程 系统 。 


Django 项 目 开发 实战 


@ Prometheus 以 标准 格式 读 取 远 程 系统 。 
Prometheus 远程 存储 的 集成 方式 如 图 15.2 所 示 。 


自 定义 协议 
Prometheus 服 务 | ;ii 


15.2 ”Prometheus 远程 存储 集成 方式 


15.3.6 ”告警 


Prometheus 将 告警 拆 分 为 两 部 分 : Prometheus 负责 定义 告警 规则 并 将 警报 发 送 到 
Alertmanager; Alertmanager 负责 管理 这 些 警 报 ， 并 将 警报 通过 电子 邮件 、 通 知 系统 和 聊天 
等 方式 发 送 。 

Prometheus 的 告警 规则 定义 了 触发 告警 的 条 件 。 下 面 是 一 个 简单 的 警报 配置 : 


groups: 
- name: example 
rules: 
- alert: HighRequestLatency 
# 表达 式 定义 了 触发 告警 的 条 件 
expr: job:request latency seconds:mean5m{job="myjob"} > 0.5 
# 定义 告警 10 分 
for: 10m 
# 定义 告警 的 标签 
labels: 
# 定义 严重 程度 
severity: page 
annotations: 
summary: High request latency 


Alertmanager 会 将 类 似 性 质 的 警报 收敛 成 单个 通知 ， 这 在 许多 系统 同时 失败 ， 大 量 告 
警 被 触发 的 时 候 是 很 有 用 的 。 接 收 警报 的 人 只 想 接 受 关键 而 不 重复 的 告警 信息 ， 可 以 将 
Alertmanager 配置 为 对 警报 进行 分 组 ， 只 发 送 单个 紧凑 的 通知 。 

Alertmanager 还 能 配置 重要 警报 触发 时 ， 不 再 发 送 其 他 警报 。 例 如 ， 当 整个 数据 中 心 
不 可 访问 时 ， 提 醒 “ 数 据 中 心 整体 不 可 访问 ”的 告警 已 经 发 送 ， 那 么 “数据 中 心 某 台 机 器 
不 能 访问 ”的 告警 就 不 会 再 触发 。 


对 软件 系统 进行 持续 的 监控 是 非常 重要 的 。 持 续 的 监控 可 以 在 产生 不 利 影响 之 前 检测 
到 潜在 问题 ， 当 问题 首次 出 现 的 时 候 采集 数据 ， 并 提供 数据 基准 线 用 于 和 后 续 改 动 的 比较 。 
本 章 首先 介绍 了 监控 指标 的 采集 和 告警 的 框架 性 实践 。 理 想 的 监控 系统 应 该 明确 定义 
需要 采集 的 指标 ， 定 期 从 软件 系统 中 采集 数据 并 持久 化 存储 有 用 的 数据 。 告 警 系统 应 该 考 


虑 告警 的 级 别 和 警报 的 收敛， 并 将 关键 的 信息 传递 给 负责 人 。 
开源 社区 提供 了 优秀 的 开源 工具 ，Prometheus 是 这 些 工 具 中 非常 流行 的 软件 。 本 章 最 


后 介绍 了 如 何 围绕 Prometheus 构建 一 个 完整 的 监控 系统 。 


ss 练 “ 习 


问题 一 ， 本 章 介绍 了 哪儿 类 工作 指标 和 资源 指标 ? 
问题 二 本章 介绍 的 围绕 Prometheus 建立 的 监控 系统 包括 哪些 组 件 ? 
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在 开发 应 用 软件 的 过 程 中 ， 软 件 开发 者 要 做 的 不 仅仅 是 实现 业务 逻辑 。 面 对 复杂 、 多 变 的 需求 ， 
优秀 的 软件 工程 师 不 仅 需要 提升 设计 能 力 ， 而 且 需 要 学 会 使 用 各 种 工具 来 提升 效率 并 减少 错误 ， 有 
时 甚至 还 要 以 刨 根 问 底 的 态度 深入 系统 的 底层 调查 问题 。 

本 章 主要 涉及 的 知识 点 : 

@ Git 的 使 用 : 学 习 使 用 Git 对 代码 进行 版 本 控制 。 

@ Linux 常用 软件 : 学 习 使 用 Linux 的 软件 进行 日 常 的 开发 。 

@ 性 能 分 析 : 学 习 使 用 火焰 图 等 工具 对 软件 做 性 能 分 析 。 


Git 是 一 个 开源 的 、 用 于 版 本 控制 的 软件 。 它 支持 分 支 ， 是 一 种 去 中 心 化 的 版 本 控制 系 
统 。 它 已 经 改变 了 团队 开发 软件 的 方式 ， 越 来 越 多 的 IT 企业 和 组 织 将 版 本 控制 系统 从 集中 
式 切换 为 Git。 


16.1.1 ”Git 工 作 方 式 


在 Git 版 本 控制 系统 中 ， 文 件 会 有 3 个 状态 : commited 状态 、modified 状态 和 staged 
状态 。 当 文件 处 于 commited 状态 时 ， 数 据 已 经 安全 地 存储 在 本 地 版 本 库 中 ; 当 文 件 处 于 
modified 状态 时 ， 说 明 它 已 经 被 修改 ， 但 还 没有 存储 在 本 地 版 本 库 ， 当 文件 处 于 staged 状 
态 时 ， 说 明 它 已 经 标记 为 已 修改 ， 会 在 下 一 次 提交 时 进入 版 本 库 。 

在 一 个 用 Git 进行 版 本 控制 的 项 目 中 ， 项 目 分 为 3 个 主要 部 分 : Git 目录 、 工 作 区 和 和 暂 
存 区 。Git 目录 是 存储 项 目 元 数据 和 对 象 数据 库 的 地 方 。 工 作 区 是 当前 的 工作 目录 ， 当 执行 
clone 或 checkout 命令 时 ，Git 会 把 数据 库 中 的 某 个 项 目 版 本 解压 到 工作 区 中 ， 使 用 者 可 以 
查看 和 编辑 这 些 文件 。 暂 存 区 是 一 个 包含 在 Git 目录 中 的 文件 ， 用 于 存储 有 关 下 一 次 提交 
的 信息 ， 这 个 文件 有 时 又 被 称 为 索引 文件 。 

Git 基本 使 用 方式 如 下 。 
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(1) 本 地 新 建 或 者 远程 拉 取 Git 项 目 。 

(2) 修改 工作 区 的 文件 。 

(3) 暂 存 文件 ， 将 它们 的 快照 添加 到 暂 存 区 。 

(4) 提交 文件 ， 将 暂 存 区 的 文件 永久 添加 到 Git 目录 中 ， 即 保存 在 Git 版 本 库 中 。 
(5) 如 果 多 人 协作 并 存在 远程 版 本 库 ， 则 将 本 地 版 本 推 到 远程 版 本 库 中 。 

Git 工作 方式 如 图 16.1 所 示 。 


| 工人 区 | | 加 在 区 | |[ 版 本 库 | [远程 版 库 | 


git add | 
git commit ) 


gitpush 


git pull 


git checkout 


git merge 


16.1 ”Git 工作 方式 


Git 的 优势 之 一 是 它 的 分 支 功 能 。 和 集中 式 版 本 控制 系统 不 同 ，Git 的 分 支 功 能 强大 且 
使 用 起 来 非常 方便 。 功 能 分 支 为 代码 库 的 每 次 更 改 提供 隔离 的 环境 , 开发 者 会 新 建 一 个 分 支 ， 
然后 开始 编写 新 的 功能 。 这 一 切 行为 都 不 会 影响 用 于 生产 环境 的 分 支 。 

在 集中 式 版 本 控制 系统 中 , 每 个 开发 者 都 会 获得 一 个 指向 单一 中 央 存 储 库 的 工作 副本 。 
而 在 Git 中 ， 每 个 开发 人 员 都 在 自己 本 地 保存 具有 完整 提交 历史 的 版 本 库 。 将 所 有 文件 都 
保存 在 本 地 能 让 Git 变 得 更 快 ， 因 为 大 部 分 操作 《〈 如 检查 文件 之 前 的 版 本 或 在 提交 之 前 比 


较 差异 ) 


不 需要 连接 网 络 。 


使 用 这 种 分 布 式 开发 方式 能 让 团队 合作 更 轻松 。 在 集中 式 版 本 控制 系统 中 ， 如 果 有 人 
引入 了 缺陷 ， 则 其 他 人 在 缺陷 被 修复 之 前 都 不 能 提交 他 们 的 更 改 ; 使 用 Git， 就 不 存在 这 个 


问题 ， 因 


为 每 个 人 都 能 在 本 地 继续 开发 。 


和 分 支 功能 类 似 ， 分 布 式 开发 提供 了 可 靠 的 环境 。 如 果 有 人 把 本 地 的 代码 库 弄 坏 了 ， 
则 他 只 需要 从 其 他 人 那里 复制 一 份 代码 库 ， 就 能 重新 开始 开发 。 
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16.1.2 ”Gittlow 工 作 流 


Git 是 一 个 非常 灵活 的 工具 ， 它 没有 一 个 标准 的 使 用 方式 。 在 使 用 Git 对 代码 进行 版 本 
控制 的 团队 中 ， 确 定 团队 成 员 以 一 致 的 方式 使 用 Git 是 非常 重要 的 。 在 评估 Git 工作 流 时 ， 
首先 应 该 考虑 团队 文化 。 下 面 是 评估 Git 工作 流 时 需要 考虑 的 事项 : 

@ 能 否 适 应 团队 规模 的 扩大 。 

@ 能 否 快速 消除 错误 。 

@ 学 习 成 本 是 否 够 低 。 

已 经 有 几 个 成 熟 的 Git 使 用 流程 在 实践 中 被 摸索 出 来 ， 这 里 主要 介绍 一 下 Gitlow 工作 
流 。Gitflow 定义 了 围绕 项 目 发 布 的 严格 分 支 模型 ， 常 用 于 管理 大 型 软件 项 目 。 

Gittow 非常 适用 于 有 计划 发 布 周期 的 项 目 。 这 个 工作 流 只 用 到 了 Git 提供 的 概念 和 命 
令 ， 因 此 学 习 成 本 很 低 。 它 为 不 同 的 分 支 分 配 了 非常 具体 的 角色 ， 并 定义 它们 应 该 在 什么 
时 候 以 何 种 方式 进行 交互 。 

默认 情况 下 ， 在 创建 Git 项 目 时 会 创建 一 个 master 分 支 。 除 了 master 分 支 ，Gittiow 还 
定义 了 一 个 develop 分 支 。master 分 支 用 于 保存 正式 发 布 历史 ，develop 分 支 用 作 工 作 的 集 
成 分 支 。 发 布 的 版 本 将 基于 master 分 支 ， 并 在 发 布 时 打上 版 本 号 。 使 用 Gittow 的 第 一 步 是 
创建 develop 分 支 ， 并 推送 到 远程 版 本 库 。 命 令 如 下 : 


# 创建 develop 分 支 
$ git branch develop 
$ git push -u origin develop 


每 次 开发 新 功能 的 时 候 ， 都 应 该 新 建 一 个 分 支 ， 可 以 将 这 个 新 建 分 支 推送 到 中 央 版 本 


库 以 进行 备份 和 协作 。 新 的 功能 分 支 应 该 从 develop 分 支 切 出 ， 当 开发 完成 时 ， 功 能 分 支 将 
被 合并 到 develop 分 支 。 示 例 代码 如 下 : 


# 基于 develop 分 支 创建 新 的 功能 分 支 

$ git checkout develop 

$ git checkout -b feature branch 
# 开发 完成 后 , 合并 到 develop 分 支 

$ git checkout develop 

$ git merge feature branch 


当 需 要 发 布 的 功能 都 开发 完成 后 ， 从 develop 分 支 切 出 release 分 支 ， 创 建 release 分 支 
意味 着 开始 了 下 一 轮 的 发 布 。 只 有 修复 Bug 的 代码 、 文 档 和 发 布 相关 的 代码 会 进入 release 
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分 支 ， 新 功能 的 代码 将 不 会 加 入 release 分 支 。 在 经 过 足够 测试 确认 release 分 支 的 代码 可 以 
发 布 后 ， 将 release 分 支 合并 到 master 并 打上 版 本 号 。 另 外 ， 需 要 将 release 合并 到 develop 
分 支 。 

专门 用 于 发 布 的 分 支 能 让 完善 当前 版 本 和 开发 新 版 本 的 团队 互 不 影响 。release 分 支 的 
使 用 示例 如 下 : 


# 创建 release 分 支 

$ git checkout develop 

$ git checkout -b release/1.0 

# 准备 正式 发 布 时 , 将 release 分 支 合并 到 master 分 支 
$ git checkout master 

$ git merge release/1.0 


hotfix 分 支 用 于 快速 修补 生产 版 本 ， 它 基于 master 分 支 创 建 。 当 开发 完 修复 代码 后 ， 
master 分 支 和 develop 分 支 应 该 分 别 合并 hotfix 分 支 ， 并 基于 master 分 支 打 上 版 本 号 用 于 
发 布 。 

专门 用 于 修复 生产 环境 Bug 的 分 支 能 让 团队 解决 问题 的 同时 不 干扰 新 功能 的 开发 和 发 
布 。hotfix 的 使 用 示例 如 下 : 


创建 hotfix 

git checkout master 

git checkout -b hotfix some bug 

在 修复 完成 后 ， ne 
git checkout master 

git merge hotfix branch 

git checkout develop 

git merge hotfix branch 

git branch -D hotfix branch 


分 步 演示 了 如 何 使 用 Gittow 后 ， 我 们 对 Gitflow 的 完整 流程 做 一 个 梳理 : 
(1) 从 master 分 支 创建 develop 分 支 。 
(2) 从 develop 分 支 创 建 feature 分 支 用 于 开发 新 功能 。 
(3) 当 功 能 开发 完成 后 ，deveop 分 支 合并 feature 分 支 。 
(4) 从 deveop 分 支 创 建 release 分 支 用 于 发 布 。 
(5) 确认 代码 可 发 布 后 ，develop 和 master 合并 release 分 支 。 
(6) 从 master 分 支 创 建 hotfix 分 支 用 于 快速 解决 线 上 问题 。 
(7) master 分 支 和 develop 分 支 合 并 hotfix 分 支 。 


人 太太 切切 二 韩 切 芒 埋 
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16.1.3 Git 日 志 用 法 


在 使 用 Git 时 ， 查 看 日 志 是 常用 的 操作 之 一 。 通 过 git log 命令 ， 我 们 可 以 在 项 目 中 找 
到 提交 代码 的 人 、Bug 引入 的 时 间 等 信息 。 为 了 能 够 快速 和 直观 地 得 到 想 要 的 信息 ， 学 习 
Git 日 志 输 出 格式 和 过 滤 部 分 日 志 内 容 是 很 有 必要 的 。 

Git 支持 多 个 参数 来 满足 不 同 格式 化 的 需求 。--online 参数 用 于 将 每 次 提交 的 记录 汇总 
成 一 行 ， 这 有 助 于 我 们 快速 掌握 项 目的 大 概 情况 。 示 例 代码 如 下 : 


$ git 1og --online 

0e25143 Merge branch 'feature' 
ad8621a 修复 一 个 Bug 

16b36c6 增加 一 个 功能 

23ad9ad Add the initial code base 


Git 的 -p 参 数 支持 显示 每 次 提交 的 详细 信息 , 包括 提交 人 、 提 交 时 间 、 新 增 和 删 减 的 代码 。 
示例 代码 如 下 : 


$ git log -p 

commit 16b36c697eb2d24302f89aa22d9170dfe609855b 
Author: Tom <tom@example.com> 

Date: Fri Jun 25 17:31:57 2014 -0500 
Fix a bug in the feature 

diff --git a/hello.py b/hello.py 
index 18ca709..c673b40 100644 

--- a/hello.py 

+++ b/hello.py 

@@ -13,14 +13,14 @@ B 

-print ("Hello, World!") 

+print ("Hello, Git!") 


Git 的 --graph 参数 用 于 根据 提交 历史 绘制 图 像 ， 这 个 参数 通常 和 --oneline、--decorate 
参数 一 起 使 用 。 示 例 代码 如 下 : 


$ git 1og -p 

$ git log --graph --oneline --decorate 

* 0e25143 (HEAD, master) Merge branch 'feature'" 
I\ 

| * 16b36c6 新 增 一 个 功能 

| * 23ad9ad 修复 一 个 Bug 

* | ad8621a 修复 一 个 安全 问题 

1/ 

* 23ad9ad Add the initial code base 
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Git 还 可 以 根据 参数 筛选 提交 信息 ， 如 限定 提交 的 数量 、 限 定 输出 的 时 间 、 限 定 提交 者 
等 。 示 例 代 码 如 下 : 


# 筛选 最 近 的 3 条 提交 记录 

git 1og -3 

筛选 2014 年 7 月 1 日 和 2014 年 7 月 4 日 之 间 的 提交 

git 1og --after="2014-7-1" --before="2014-7-4" 
筛选 Tom 的 提交 记录 

git 1og --author="Tom" 

按 commit 信 息 过 滤 提 交 记 录 

git 1og --grep="MISSIOn-2147" 

不 显示 merge 提 交 记录 


git 1og --no-merges 


第 选 Git 日 志 并 进行 格式 化 输出 是 非常 有 用 的 ， 有 助 于 我 们 快速 定位 和 解决 问题 。 找 
到 想 要 的 提交 历史 后 ， 使 用 Git 的 其 他 命令 来 控制 项 目 也 会 更 有 信心 。 


妇 # 切 井 切 井 悍 慷 


人 贸 Linux 常用 软件 

Linux 提供 了 很 多 有 用 的 工具 ， 这 些 工具 能 够 帮助 软件 开发 人 员 有 效 地 管理 系统 、 配 轩 
软件 和 调查 问题 。 这 些 工具 通常 以 命令 行 的 方式 被 使 用 。 对 于 软件 开发 者 来 说 ， 熟 练 学 所 
这 些 工具 是 必需 的 。 


16.2.1 安全 Shell 


传统 的 网 络 协 议 ( 如 FITP、POP、Telnet) 本质 上 都 是 不 安全 的 ， 因 为 它们 在 网 络 上 用 
明文 传送 数据 、 用 户 账号 和 密码 。 这 种 传输 方式 很 容易 受到 中 间 人 攻击 ， 攻 击 者 会 冒充 真 
正 的 服务 器 接收 用 户 传 给 服务 器 的 数据 ， 然 后 冒充 用 户 把 数据 传 给 真正 的 服务 器 。 

为 了 满足 安全 需求 ，IETF 网 络 工作 小 组 制定 了 安全 Shell 协议 缩写 为 SSH〉 ， 这 是 
一 项 创建 在 应 用 层 和 传输 层 基 础 上 的 安全 协议 ， 为 计算 机 上 的 Shell 提供 安全 的 传输 和 使 用 
环境 。 

SSH 是 目前 较 可 靠 的 专 为 远程 登录 会 话 和 其 他 网 络 服 务 提供 安全 的 协议 。 利 用 SSH 协 
议 可 以 有 效 防止 远程 管理 过 程 中 的 信息 泄露 问题 ， 可 以 对 所 有 传输 的 数据 进行 加 密 ， 也 能 
够 防止 DNS 欺骗 和 卫 欺骗 。 
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SSH 最 常用 的 方式 是 登录 远程 服务 器 。 常 用 的 登录 方式 有 两 种 : 一 种 是 通过 账户 / 密 
码 方式 登录 ; 另 一 种 是 通过 配置 密 钥 对 的 方式 登录 。 这 两 种 方式 都 需要 在 远程 服务 器 中 运 
行 SSH 服务 ， 并 创建 用 户 。 登 录 的 命令 行 示例 如 下 host 可 以 是 他 或 者 是 域名 ): 


$ ssh user name@host 


在 管理 大 规模 的 Linux 集群 时 ， 通 常 SSH 密 钥 用 来 创建 “ 免 登 ” 账 户 。 实 现 “ 免 登 ” 
的 过 程 为 先 在 客户 机 上 使 用 ssh-keygen 命令 生成 密 钥 对 ， 然 后 将 生成 的 公 钥 内 容 复制 到 服 
务 器 的 ~/.ssh/authorized_keys 中 。 

SSH 隧道 是 一 种 通过 加 密 的 SSH 连接 传输 任意 网 络 数据 的 方法 。 它 可 以 用 来 为 任何 应 
用 程序 添加 加 密 通道 ， 也 可 以 用 来 实现 VPN 和 跨 防 火 墙 访问 局 域 网 的 服务 。 

在 SSH 隧道 中 ， 不 可 信和 网络 的 安全 连接 建立 在 SSH 客户 端 和 SSH 服务 器 之 间 。 这 个 
连接 是 加 密 的 ， 可 用 于 保护 信息 的 机 密 性 和 完整 性 ， 并 且 可 以 对 通信 方 进行 身份 验证 。 客 
户 端 应 用 使 用 SSH 来 连接 服务 端 应 用 。 隧 道 的 工作 过 程 如 下 所 述 。 

(1) 应 用 程序 连接 到 SSH 客户 端 所 在 主机 的 端口 。 
(2) SSH 客户 端 通过 加 密 隧道 将 数据 转发 到 SSH 服务 端 。 
(3) SSH 服务 端 连接 到 应 用 程序 服务 器 ，SSH 服务 器 需要 能 够 访问 应 用 程序 服务 器 。 

SSH 隧道 有 本 地 转发 和 远程 转发 两 种 方式 。 本 地 转发 用 于 将 端口 从 客户 端 计算 机 转发 
到 服务 端 计算 机 。SSH 客户 端 监听 来 自 某 个 端口 的 连接 ， 当 它 收 到 连接 时 ， 将 请 求 通过 隧 
道 转发 到 SSH 服务 器 ， 然 后 SSH 服务 器 将 请 求 转 到 目标 端口 。 

SSH 本 地 转发 工作 方式 如 图 16.2 所 示 。 


本 地 安全 隧道 | SsH 目标 
服务 器 服务 器 服务 器 

防火 墙 
图 16.2 SSH 本 地 转发 工作 方式 


本 地 转发 比较 常见 的 场景 如 下 : 
(1) 通过 跳板 机 登录 远程 服务 器 或 传输 文件 。 
(2) 从 外 部 连接 内 部 网 络 的 服务 。 
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(3) 远程 文件 共享 。 
在 OpenSSH 中 ，ssh 命令 带 上 “-L” 参 数 可 以 开启 本 地 转发 。 示 例 代码 如 下 : 


# server 为 目标 服务 器 IP, remote 为 SSH 服 务 器 IP 


$ ssh -L pl:server:p2 remote 


执行 上 面 的 命令 开启 本 地 转发 功能 后 ， 其 他 机 器 都 能 够 连接 到 本 地 SSH 客户 端 指定 的 
端口 。 安 全 起 见 ， 在 开启 本 地 转发 功能 后 ， 往 往 会 限制 请 求 的 来 源 瑟 ， 如 只 人 允许 来 源 卫 为 
127.0.0.1 的 请 求 通过 转发 。 示 例 代 码 如 下 : 


# server 为 目标 服务 器 IP, remote 为 SSH 服 务 器 IP 
$ ssh -L 127.0.0.1:pl:server:p2 remote 


如 果 希 望 通过 本 地 计算 机 ， 让 远程 服务 器 可 以 连接 到 和 本 地 计算 机 在 相同 内 网 机 器 上 
的 服务 ， 则 可 以 使 用 SSH 远程 转发 。 

使 用 SSH 远程 转发 的 一 个 典型 场景 是 ， 在 企业 内 部 开 一 个 “后 门 ”， 让 公 网 的 计算 机 
可 以 访问 企业 的 某 个 内 部 服务 。 需 要 注意 的 是 ， 这 样 做 是 有 一 定 风险 的 ， 使 用 的 时 候 需 要 
特别 小 心 。SSH 远程 转发 的 工作 方式 如 图 16.3 所 示 。 


局 域 网 本 地 安全 隧道 | 远程 
服务 器 服务 器 服务 器 
防火 墙 

图 16.3 SSH 远程 转发 的 工作 方式 


在 OpenSSH 中 ,远程 转发 通过 “-R” 参 数 开启 ， 在 本 地 计算 机 上 输入 下 面 的 命令 : 
# server 为 局 域 网 务 器 IP, remote 为 远程 服务 器 IP 


$ ssh -R pl:server:p2 remote 


16.2.2 ”进程 状态 


在 操作 系统 中 ， 进 程 可 以 处 于 多 种 状态 。 当 进程 被 创建 时 ， 它 处 于 “创建 ”状态 ， 并 
等 待 进入 “等 待 ”状态 。 进 入 “等 待 ”状态 的 进程 已 经 被 加 载 到 主 内 存 , 并 等 待 CPU 的 调度 。 
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进程 被 选择 执行 就 进入 了 “运行 ”状态 。 在 没有 外 部 状态 改变 或 事件 发 生 的 情况 下 ， 进 程 
无 法 继续 ， 则 进程 进入 “阻塞 状态 ”。 当 进程 完成 执行 或 被 管理 员 “ 杀 死 ” 时， 进程 处 于 “ 终 
止 ”状态 。 

在 支持 虚拟 内 存 的 操作 系统 中 ， 进 程 还 有 另外 两 种 状态 : 一 种 是 “ 换 出 并 等 待 ” 状 态 ， 
在 这 种 状态 下 ， 处 于 “等 待 ”状态 的 进程 被 调度 器 从 主 内 存 中 移出 ， 存 入 另外 的 存储 空间 ; 
另 一 种 是 “ 换 出 并 阻塞 ”状态 ， 在 这 种 状态 下 ， 处 于 “阻塞 ”状态 的 进程 被 调度 器 从 主 内 
存 中 移出 ， 并 存 入 另外 的 存储 空间 。 

进程 各 个 状态 的 转换 过 程 如 图 16.4 所 示 。 


页 文件 /交换 空间 | 


换 出 并 换 出 并 
等 待 阻塞 


16.4 ”进程 各 个 状态 的 转换 过 程 


在 Linux 中 ， 进 程 的 状态 由 状态 代码 表示 。 状 态 代 码 如 下 。 
R: 表示 运行 状态 。 
D: 表示 不 可 中 断 等 待 状态 ， 一 般 说 明 进程 正在 执行 JO 任务 。 
S: 表示 可 中 断 等 待 状态 ， 处 于 该 状态 的 任务 正在 等 待 外 部 事件 的 完成 。 
Z: 表示 僵尸 状态 ， 处 于 该 状态 的 进程 已 经 终止 但 没有 被 父 进程 回收 。 
T: 表示 停止 状态 ， 进 程 收 到 了 任务 控制 信号 或 者 正在 被 追踪 。 
进程 状态 (process status，ps) 是 Linux 的 一 个 非常 有 用 的 程序 ， 用 来 查看 系统 正在 运 
行 的 进程 的 信息 ， 是 管理 系统 的 重要 工具 之 一 。 
ps 从 /proc 文件 夹 下 的 文件 中 读 取 进程 信息 ， 这 些 信 息 包括 进程 的 PID、 父 进程 的 PID 
(PPID)、 和 运行 进程 的 用 户 、 进 程 运行 时 间 、 进 程 运 行 的 命令 、 进 程 占用 的 CPU 和 内 存 资 
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源 、 执 行进 程 的 TTY (Teletypewriter， 电 传 打 字 机 ) 。 它 有 大 量 的 选项 用 于 输出 不 同 的 信息 ， 
下 面 列 举 了 一 些 常用 的 选项 。 


女 埋 切 韩 切 埋 切 埋 切 大 妇 埋 


显示 运行 在 当前 She11 的 进程 
ps 
显示 以 tom 用 户 运 行 的 进程 


ps -fu tom 

显示 PID 为 1178 的 进程 

1 

显示 父 进 程 PID 为 1178 的 进程 

ps -E --ppid 1178 

输出 进程 树 

ps -e --forest 

按照 CPU 的 使 用 率 为 进程 排序 

ps -eo pid,ppid, cmd, $mem,%cpu —--sort=-%cpu | head 


kill 是 Linux 系统 中 用 于 手动 终止 进程 的 程序 ， 它 通过 向 指定 的 进程 发 送信 号 来 终止 进 


给 


如 果 用 户 没有 指定 信号 ， 则 默认 发 送 SIGTERM 信号 。kill 命令 的 使 用 示例 如 下 ; 


# 向 PID 为 1898 的 进程 发 送 终止 信号 
$ kill -9 1898 


每 个 信号 都 有 一 个 数字 代码 ， 大 多 数 信号 供 系统 内 部 或 者 程序 员 使 用 。 对 于 系统 用 户 
来 说 ， 常 见 的 信号 如 下 。 


$6:2.3 


SIGHUP (代码 1 ) : 当 控 制 终端 关闭 时 ， 发 送 给 进程 。 

SIGINT (代码 2) : 用 户 和 输入 【CtrlHC 】 时 ， 由 控制 终端 发 送 给 进程 。 
SIGQUIT ( 代码 3 ) : 用 户 输 入 【 CtrlHD 】 时 ， 进 程 接 到 退出 信号 。 

SIGKILL (代码 9) : 这 个 信号 表示 立刻 终止 进程 ， 收 到 该 信号 后 ， 进 程 不 会 执行 
任何 清理 操作 。 

SIGTERM (代码 15 ) : 进程 终止 信号 。 

SIGTSTP ( 代码 20 ) : 用 户 输入 【 CtrlHZ 】 时 ， 控 制 终端 发 送 给 进程 ， 令 其 停止 。 


系统 性 能 


应 用 程序 的 运行 和 系统 的 状态 密切 相关 。 了 解 如 何 监控 系统 性 能 是 非常 重要 的 。 本 节 
将 介绍 几 种 常用 于 Linux 系统 性 能 监控 的 工具 。 
top 命令 是 常用 的 性 能 监控 程序 ， 用 于 实时 显示 所 有 正在 运行 的 进程 ， 并 定期 更 新 输出 
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信息 ， 如 CPU 使 用 率 、 内 存 使 用 率 、 交 换 内 存 使 用 率 、 进 程 PID、 运 行 的 用 户 等 。 使 用 示 
例如 下 : 


$ top 

op 14:20:49 Wp 53 days; 21:39> LT usere loadlaverages OO 90922008 
Tasks: 160 total, 1 running, 158 sleeping, 1 stopped, 0 zombie 
Sepal(s): O02 U3 ‘0-2'3y, O00 ni 995.1 id, 0.4 wa ‘00 hi Olah ‘01st 
KiB Mem: 7917292 total, 7536936 used, 380356 free, 270884 buffers 


KiB Swap: 0 total, 0 used, 0 free. 6029816 cached Mem 
PID USER PR NI VIRT RES SHR S %CPU SMEM TIME+ COMMAND 
1331 lldpd 20 0 49228 3016 2456 9. 053 0.0 132:18=06 lldpd 
2538327 huangsu+ 20 0 1329 2600 222Z0R 0073 650=000 :00002 top 
1 root 20 0 37740 5456 3208 S 0.0 0.1 14:22.30 systemd 
2 root 20 0 0 0 ODS OO020 D001:24 kthreadd 
3 root 20 0 0 0 0 S 0.0 0.0 0:55.08 ksoftirqd/0 


vmstat 命 令 用 于 显示 虚拟 内 存 、 内 核 线程 磁盘 、 系 统 进程 、 中 断 、CPU 活动 等 统计 信息 。 
默认 情况 下 ， 系 统 中 没有 vmstat 命令 ， 需 要 安装 sysstat 包 。 使 用 示例 如 下 : 


$ vmstat 
procs —— 
rb swpd free buff cache si so bi bo in csussyidwast 
0 0 0 379668 270884 6031160 0 0 L 18 > OF 证 ER 


lsof 命令 用 于 显示 系统 中 所 有 的 打开 文件 和 进程 。 打 开 的 文件 包括 磁盘 文件 、 网 络 套 
接 字 、 管道 、 设备 和 进程 。 这 个 命令 能 让 用 户 快速 知道 哪个 文件 正在 被 使 用 。 使 用 示例 如 下 : 


$ 1sof 

COMMAND PT TID USER FD TYPE DEVICE 
SIZE/OFF NODE NAME 

systemd 下 root cwd DIR 3 二 4096 
2/ 

systemd 2 root rtd DIR 237 4096 
2 

systemd > root 中 RE REG 87 1425488 
44277 /lib/systemd/systemd 

systemd 5 root mem REG S72E 18904 
3499 /lib/zx86 64-linux-gnu/libuuid.so.1.3.0 

systemd 4 root mem REG 871 258688 
2185 /lib/x86 64-linux-gnu/libblkid.so.1.1.0 

systemd root mem REG 81 18640 


599 /lib/x86 64-linux-gnu/libattr.so 


tcpdump 是 广泛 使 用 的 数据 包 嗅 探 程序 之 一 ， 主 要 用 于 在 网 络 特定 接口 上 接收 或 传输 
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TCP/IP 数据 包 。 使 用 示例 如 下 : 


$ sudo tcpdump -i en0 

tcpdump: verbose output suppressed, use -Vv or -vv for full protocol decode 

listening on en0, link-type EN10MB (Ethernet), capture size 262144 bytes 

193 AGODTCZ TP 22302520L99 6905003 > 10.905L16 U9 68006 lags 
[.], ack 3998498348, win 1452, options [nop,nop,TS val 4128097649 ecr 
699443512], length 0 

14:31:46.783277 IP 10.90.176.19.49234 > 10.91.0.1.domain: 28881+ PTR? 
69.199.252.223.in-addr.arpa. (45) 

14:31:46.812760 IP 10.91.0.1.domain > 10.90.176.19.49234: 28881 
NxDomain 0/1/0 (133) 

14:31:46.815003 IP 10.90.176.19.51035 > 10.91.0.1.domain: 40398+ PTR? 
1.0.91.10.in-addr.arpa. (40) 

14:31:46.843393 IP 10.91.0.1.domain > 10.90.176.19.51035: 40398 
NXxDomain* 0/1/0 (75) 

a3 aT NSD TPL20 Te lo 0 https > L090 L1619022602: Elagqs [Ply 
seq 1569667716:1569667775, ack 494876758, win 277, options [nop,nop,TS 
val 562035002 ecr 699441603], length 59 

Lao TP L006 L962202 > T1200 D3 0nELpss Clagso ls] 
ack 59, win 2047, options [nop,nop,TS val 699444532 ecr 562035002], 
length 0 


netstat 用 于 监视 传 入 和 传 出 的 网 络 数据 包 统 计 信息 及 接口 统计 信息 ， 在 调查 网 络 相 关 
的 数据 时 非常 有 用 。 使 用 示例 如 下 : 


$ netstat -a 
Active Internet connections (servers and established) 


Proto Recv-Q Send-Q Local Address Foreign Address State 
七 cp 0 Dx*e2280 0 LISTEN 
tcp 0 0 *:http eh LISTEN 
tcp 0 Dassh. 二 LISTEN 
tcp 0 0 localhost:smtp eo LISTEN 
tcp 0 0 *28223 3 LISTEN 
tcp 0 Di re29503 沪 3 男 LISTEN 
tcp 0 0 localhost:45098 localhost:2280 ESTABLISHED 


包罗 性 能 剖析 


在 使 用 Django 开发 业务 网 站 时 ， 首 先 要 关注 的 是 编写 有 效 的 代码 ， 让 业务 逻辑 可 以 生 
成 预期 的 输出 。 但 随 着 业务 规模 的 扩大 ， 应 用 的 一 些 性 能 问题 可 能 会 暴露 ， 并 影响 用 户 的 
体验 。 在 这 样 的 情况 下， 我们 需要 在 不 影响 应 用 行为 的 情况 下 改善 代码 性 能 。 
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在 之 前 的 章节 中 ， 我 们 介绍 了 如 何 采 集 监控 数据 ， 以 监控 数据 作为 基准 ， 可 以 很 容易 
定位 应 用 的 哪些 部 分 正在 影响 整体 性 能 。 本 章 将 介绍 几 种 剖析 代码 、 定 位 性 能 瓶颈 的 常用 
工具 。 


16.3.1 调用 路 径 图 


在 实际 开发 过 程 中 ， 要 想 确定 应 用 的 性 能 瓶颈 ， 首 先 需 要 了 解 代码 的 执行 路 径 。 项 目 
越 大 ， 代 码 的 执行 路 径 越 复杂 。 我 们 希望 能 够 尽快 得 到 代码 的 调用 图 。 

调用 图 是 一 个 控制 流 图 ， 用 于 表示 计算 机 程序 中 子 程序 之 间 的 调用 关系 。 调 用 图 不 仅 
可 以 作为 程序 的 文档 ， 还 可 以 用 于 分 析 不 同 代码 块 之 间 的 关系 。 图 16.5 展示 了 Python 的 
logging.info ( ) 方法 的 调用 图 。 


logging Formatter_init_ 


logging R. risEnabledFor 
het 


本 
time:0.000004s time:0.000033s 

1 由 

logging RootL ogger. eeing. addHandlerRef logging Stearmendler createLock. | logging RootLogger iptEfiectiveL evel 


Generated by Python Call Graph v1.0.1 
http://pycallgraph_slowchop.com 


图 16.5 Python 的 logging.info( ) 方法 的 调用 图 
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pycallgraph 是 绘制 Python 调用 图 的 常用 工具 。 使 用 这 个 工具 前 需要 安装 graphviz 包 和 
pycallgraph 包 。MacOS 的 安装 命令 如 下 : 


$ sudo brew install graphviz 
$ sudo pip install pycallgraph 


下 面 来 演示 如 何 使 用 pycallgraph 绘制 Django 处 理 请 求 的 调用 图 ， 实 现 方式 是 添加 一 个 
中 间 件 ， 用 于 记录 从 接收 请 求 开始 到 结束 的 完整 调用 路 径 ， 并 绘制 图 形 。 需 要 注意 的 是 ， 
pycallgraph 需要 消耗 大 量 的 计算 ， 最 好 在 调试 环境 中 使 用 ， 并 限制 记录 调用 的 范围 。 实 现 
此 功能 的 中 间 件 的 代码 如 下 : 


from pycallgraph import PyCallGraph 
from pycallgraph import Config 
from pycallgraph import GlobbingFilter 
from pycallgraph.output import GraphvizOutput 
class ProfilerMiddleware (object) : 
# 限定 记录 的 范围 
includes = [] 
def canl(self, request): 
# 只 在 调试 模式 下 使 用 
return settings.DEBUG and 'prof' in request.GET 
def process request (self, request, *args, **kwargs): 
if self.can(request) : 
# 调用 图 配置 
config = Config () 
config.trace filter = GlobbingFilter (include=self.includes) 
graphviz = GraphvizOutput (output file='callgraph.png') 
self.profiler = PyCallGraph (output=graphviz, config=config) 
# 在 接收 请 求 的 时 候 开 始 记录 
self.profiler.start () 
def process response(self, request, response): 
if self.can(request) : 
# 返 回 
self.profiler.done () 
return response 


可 以 考虑 将 该 中 间 件 置 于 MIDDLEWARE CLASS 的 头 部 位 置 ， 这 样 下 面 中 间 件 的 执 
行 过 程 也 会 被 记录 ; 也 可 以 将 该 中 间 件 置 于 MIDDLEWARE CLASS 的 尾部 ， 这 样 就 不 会 
记录 其 他 中 间 件 的 调用 记录 。 
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16.3.2 ”性 能 测试 


知道 在 特定 环境 下 代码 的 执行 时 间 和 占用 的 资源 ， 有 助 于 快捷 地 找到 性 能 瓶颈 所 
在 。Python 有 许多 用 于 测量 代码 执行 的 工具 ， 如 cProfile、line profiler、timeit、memory 
profiler。Django 支持 与 IPython 的 集成 ， 可 以 非常 方便 地 测量 代码 。 

下 面 将 演示 如 何在 Django 的 IPython 环境 下 使 用 这 些 性 能 测试 工具 。 首 先 安装 它们 ， 
执行 命令 如 下 : 


# 安装 ITPython 

$ pip install ipython 

# 安装 line_profiler 

$ pip install line profiler 

# 安装 memory_profiler 

$ pip install memory profiler 

# 通过 Django 命 令 行 启动 TPython 

$ python manage.py shell -i ipython 


IPython 默认 集成 了 timeit 作为 内 置 的 魔法 命令 ， 使 用 该 魔法 命令 能 够 自动 测量 系统 运 
行 的 时 间 。 代 码 如 下 : 


In [1]: import random; L = [random.random() for i in range(100000)]; 
In [2]: %time L.sort() 

CPU times: user 40 ms, sys: 0 ns, total: 40 ms 

Wall time: 42.4 ms 


一 般 来 说 ， 一 个 函数 会 由 多 条 单个 语句 组 成 ， 有 时 候 我 们 除了 需要 知道 这 些 语句 的 
整体 耗 时 外 ， 还 要 知道 这 些 语句 在 上 下 文中 的 单独 执行 耗 时 。 这 种 情况 下 可 以 采用 line_ 
profiler。 我们 先 定义 一 个 函数 用 于 测试 , 该 函数 功能 很 简单 , 即 计算 数组 的 和 。 示例 代码 如 下 : 


In [1]: %load ext line profiler 
In [2]: def sum of lists(N): 
otEal = 0 
for i in range(5): 
LI=[I]j^( >>i for j in range(N)] 
total += sum(L) 
return total 


In [3]: Slprun -f sum of lists sum of lists(5000) 
Timer unit: le-06 s 
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Total time: 0.013199 s 
File: <ipython-input-2-£f105717832a2> 
Function: sum of lists at line 1 


Line # Hits Time Per Hit $ Time Line Contents 
1 def sum of lists(N) : 
2 下 和 2 办 二 0.0 total =0 
和 6 人 了 0.1 for i in range(5) : 
4 25005 13002.0 0.5 98.5 L=[j^ (ji) forj in range(N)] 
3 187.0 有 ye total += sum(L) 
6 La0 1.0 0.0 return total 


可 以 看 到 ， 每 一 行 命令 的 执行 次 数 和 耗 时 都 被 测量 出 来 了 。 有 了 这 些 数据 ， 我 们 就 可 
以 很 快 地 定位 性 能 问题 并 以 此 为 基准 对 其 进行 优化 。 

除了 分 析 程 序 的 执行 时 间 外 ， 还 需要 分 析 程 序 的 内 存 使 用 量 ，memory profiler 可 
以 用 来 测量 内 存 使 用 量 。IPython 提供 了 与 memory_profiler 有 关 的 魔法 方法 : memit 和 
mprun。memit 用 于 测量 整体 的 内 存 使 用 量 ，mprun 用 于 测量 每 行 新 增 的 内 存 使 用 量 。 使 
用 示例 如 下 : 


In [4]: %load ext memory_profiler 
In [5]: Smemit sum of lists(1000000) 
Peak memory: 147.01 MiB, increment: 95.02 MiB 
In [7]: %%file mprun demo.py 
…: def sum of lists(N): 
total = 0 
for i in range(5): 
LI=[I]j^( >> i) for j in range(N)] 
total += sum(L) 
del TL 
四 return total 
In [8]: from mprun demo import sum of lists 
In [9]: Smprun -f sum of lists sum of lists(1000) 
Filename: mprun demo.py 
Line # Mem usage Increment Line Contents 


def sum of lists(N): 


1 147.4 

小 147.4 MiB total = 0 

3 147.4 MiB for i in range(5) : 

4 147.4 MiB L= [jj* (13> i) for j in range(N)] 
5 147.4 MiB total += sum(L) 

6 147.4 MiB de 

gl 147.4 MiB return total 
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16.3.3 ”使 用 Pyfame 生 成 火焰 图 


Python 内 置 的 cProfile 模块 和 profile 模块 工作 方式 是 类 似 的 : 调用 sys.settrace( ) 方法 
可 以 在 设置 的 代码 点 安装 跟踪 函数 。 这 种 方法 能 够 输出 有 用 的 信息 ， 但 存在 一 些 缺 点 。 

@ 这 种 方式 本 身 需 要 占用 大 量 的 CPU， 导 致 采集 的 数据 不 够 准确 。 

@ 这 种 方式 不 记录 完整 的 堆栈 调用 信息 。 

@ 需要 代码 配合 ， 如 果 代 码 没 有 按照 可 分 析 的 方式 编写 ， 则 无 法 进行 性 能 分 析 。 

Uber 公司 开源 的 Pyflame 很 好 地 解决 了 上 面 的 问题 。 使 用 这 个 模块 采集 程序 运行 数据 
本 身 占用 资源 小 ， 能 完整 收集 Python 堆栈 信息 ， 还 可 以 使 用 采集 的 数据 生成 火焰 图 。 

Pyflame 使 用 ptrace 系统 调用 。ptrace 并 不 在 POSIX 标准 中 ， 但 是 大 多 数 类 UNIX 系统 
都 实现 了 它 。 基 于 ptrace 的 进程 可 以 读 写 任意 虚拟 内 存 地 址 、 读 写 CPU 寄存 器 、 传递 信号 等 。 

下 面 来 演示 如 何在 Ubuntu 中 使 用 Pyflame。 首 先 下 载 Pyflame 源码 ， 编 译 并 安装 ， 然 
后 采集 数据 并 保存 到 文件 中 。 示 例 代 码 如 下 : 


# 编译 并 安装 Pyflame 
$ sudo apt-get install autoconf automake autotools-dev g++ pkg-config 
python-dev python3-dev libtool make 
$ git clone https://github.com/uber/pyflame 
cd pyflame 


$ 

$ ./autogen.sh 

$ ./configure 

$ make 

# 连接 到 PID 为 2628058 进 程 ,采集 5s, 每 0.01s 采 集 一 次 ,输出 结果 到 prof .txt 中 
$ ./src/pyflame -s 5 - 0.01 -p 2628058 -x -oOo prof.txt 


采集 到 的 数据 可 能 有 上 千 行 , 非常 不 直观 且 难 以 理解 , 可 以 将 采集 的 数据 绘制 成 火焰 图 ， 
通过 火焰 图 能 够 快速 定位 到 热点 代码 。 执 行 下 面 的 代码 绘制 火焰 图 : 


S cal 

$ git clone https://github.com/brendangregg/FlameGraph.git 
$ cd FlameGraph 

# 绘 出 火焰 图 

$ ./flamegraph.pl ../pyflame/prof.txt > flame.png 


生成 的 火焰 图 如 图 16.6 所 示 。 
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不 使 用 版 本 控制 系统 来 开发 软件 ， 代 码 随 时 有 丢失 的 风险 。 本 章 首先 介绍 了 现在 流行 
的 版 本 控制 系统 一 一 Git。 采 用 Git 和 合理 Git 工作 流 能 帮助 团队 管理 代码 ， 并 允许 软件 团 
队 在 人 员 扩大 时 保持 效率 和 敏捷 性 。 

作为 后 端 程序 员 , 无 论 是 排查 线 上 问题 , 还 是 开发 功能 ,都 不 可 避免 地 要 和 Linux 打 交道 ， 
本 章 接着 介绍 了 常用 的 Linux 命令 ， 熟 练 使 用 这 些 命令 能 迅速 解决 相关 的 问题 。 

性 能 优化 是 软件 开发 者 日 常 工作 中 重要 的 部 分 。 本 章 介绍 了 几 个 常用 的 剖析 Python 进 
程 性 能 的 工具 ， 有 助 于 更 迅速 地 定位 性 能 瓶颈 。 


1 
国 3 


练习 一 : 在 Git 项 目 中 ， 文 件 有 哪 几 种 状态 ? 
练习 二 : SSH 隧道 有 哪 几 种 转发 模式 ? 


